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作译者简介 


罗伯特 _ F •镰威利斯北卡罗莱纳大学 ( UNC ) 健康行为与健 
康教育系(公共健康学院)和心理系(艺术与科学学院)教授。另外, 
他是 UNC 的罗伯特伍德约翰逊临床学者计划（医 学院〉 的核心研究 
成员。德成利斯傅士也是 UNC 老齡化控 M 中心的测暈与方法基確 
课程的主任以及 UNC 关节炎多学科临床研究中心的副主任 ,UNC 
关节炎多学科临床研究中心的方法学基確课程组的成员。他在美 
国心理协会健康心理学分会(38)、关节炎基金会的临床/诊断结 
果/疗法研究部的董事会供职，也在老兵事务部 ME 分部任咨询董 
事。他是节炎护理与 研究》 和 (健康 教育 研究》 的编委会成员，以及二 
十几种杂志的客座编辑、助理编辑和评论员。他目前的研究兴趣包 
括: 研究促进对慢性疾病适应的个体内部因素，以及测量与健康和 
疾病相联系的社会变量和行为变量。1980年以后，他是一系列由联 
邦政府和私人基金资助的研究项目的主要研究者或合作研究者。 


李红西南师范大学心理学院教授，博士生导师。 

Ml 刚心理学碩士，重庆师范大学学前教育学院教师。 
龙长权西南师范大学心理学院心理学硕士研究生。 


宋武西南师范大学教师。 



为方法理性鼓与呼 # 

——万卷方法策划报告暨出版说明 


究竞是中®内地学界对于研究方法的漠视，导致研究方法出扳 物的* 乏？ 
还是研究方法出版 物的* 乏，导致学界没有对方法问蔥予以应有的重视？ 
这是一个鸡生蛋蛋生鸡的问蔥。 

作为田本出版的编辑人和策划人，对之多论无 A 。 

住，作为田本出版的編辑人和策划人，我们却砟常乐意一为方法 瘦性鼓 与呼! 


我们乐于，也更善于从出版物的数量和质量的比较中,来了解 
和表述某一类知识的生产和传播情况，以此作为我们图书出版策 
划的基础。同样，在万卷方法的策划之前，我们便对美国、中国台湾 
及中国内地三者 ,1999-2002 年间关于社会科学研究方法的图书 
出版情况做了一个简单的比较： 

美国在社会科学研究方法方面出版物的数量之多，至少足以 
让我们惊讶！由于不便统计，在此，仅就美国的 SAGE 出版公司在 
社会科学研究方法方面的图书出版情况,做一个简单介绍,以窥其 
一斑， SAGE 出版公司4年中出版的社会科学研究方法方面的书籍 
(包括再版书）便有两百余种，其中，既有一两百万字的大部头工 
具书，如 Handbook of Qualicadve Research 9 Handbook of Research 

Design 6 c Measurement ; 也有 10 万字左右的口袋书，如仅一个“应 
用社会科学研究方法系列丛书 ” （Applied Social Research Meth - 


* 本文 *»« 中华读书报 >2004 年 3 月 31 日*第 IS 版，在此，根据需要作者对* 文 
镦 了少* 改动， 



ods Series ) 便有 49 个品种，其中每本书对于案例研究方法、调査研 


究方法、网络调査方法等做了分门别类的介绍。其覆盖面之广，研 
究之深入、具体、操作性强是我们所难以想象的。如果说，我们与美 
国的差距尚可理解和接受的话，那么，同一时期，中国台湾在这一 
方面的研究和传播情况也足以令我们汗颜 ♦ 4年间中国台湾出版了 
大量深入研究社会科学研究方法方面的书，其中不但有本土作者 
的原创作品，也有从英美等西方国家引进版权的相对比较成熟的 
社会科学研究方法方面的作品。更为可贵的是，其中有几家出版公 
司已经注意从社会科学研究方法的体系着眼来组织自己的策划和 
出版，在这方面的出版有了一定的规模，内容的组织也显得比较成 
熟:如韦伯文化事业出版社的“研究方法系列丛书”、弘智文化事业 
公司的“应用性社会科学调査研究方法系列丛书”等都是发展比较 
成熟、规模比较大的专门传播社会科学研究方法的系列丛书。 

而中国内地方面，同期虽然也出版了一批研究方法的书籍， 
但无论是规模还是研究内容的深入丰富程度都无法与美国及中国 
台湾两地相提并论。从规模看，这期间中国内地出版的社会科学研 
究方法类的著作也就四五十本,难望美国同行之项背，仅与中国台 
湾同期出版规模大致相当。从此类出版物内容的深入丰富程度来 
看，大陆出版的社会科学研究方法类出版物主要集中在各学科内 
部，如教育研究方法，心理学研究方法、社会学研究方法、经济学研 
究方法、体育科学研究方法等，每本书都面面俱到谈调查、谈案例、 
谈访谈、谈田野、谈观察等，而很少有对某一种方法进行深入研究 



的图书，更没有像美国或中国台湾那样形成比较系统的研究社会 
科学研究方法的系列丛书。在这一领域，这样的图书结构对于应付 
大学本科生在研究方法方面的入门性需求（即作为教材）还行，但 
对于迅速培养一大批拥有科学、理性的研究头脑的学者，特别是对 
于青年学者,如硕士、博士研究生的成长则是远远不够的。其致命 
的弱点表现在三个方面 5 其一，一本书铺得太开而无法细化深入， 
以至于绝大多数学生虽然上了方法的课，却除了记住了几个名词 
和对一些方法的理论及应用略知一二之外，至于什么情况下选择 
什么方法最恰当、具体怎么操作、这种方法可能会有哪方面的不足 
需要加以处理等研究细节问题仍然处于无理性状态。其二，既然我 
们的方法建设囿于学科内部，而不能对方法进行纵深的开发，那 
么，反正学科就那么几个，于是方法书大多是低水平重复。比如教 
育研究方法的书,现在全国使用做教材的至少也有十多本吧，但你 
若有心思看的话，一本足矣！其三，出版界对研究方法图书这种淡 
淡的一笔带过的做法，不仅很难形成一种风气，从意识深处提升起 
大家对于研究方法的关注，而且更加剧了整个学界对于研究方法 
的滇视，许多学者只有在著书立说之时才想到似乎从“作品结构的 
完整性”上看应该谈及方法问題。 

社会科学界近年流行两个词语:一曰反思，二曰接轨^所谓反 
思也即是对于学科的理论基础、学科的结构、学科的历史与未来等 
问题的全面 梳理： 所谓接轨也即是希望中国的社会科学研究能够 
融入世界社科研究的大潮中，与国际上的社会科学研究实现彻底 



的、清晰的对话。在此，我们以为，无论是反思还是接轨，中国的社 
会科学界和传播界都必须投入一些精力来关注、研究、教授和传播 
社会科学研究方法4惟如此，才能在中国形成完善、科学的社会科 
学研究方法体系和学科群，也才能使对研究方法关注与理性应用 
在中国社会科学界深入人心、篇然 成风; 惟如此，也才能为中国社 
会科学研究与国际接轨搭建一个平台。 

以上种种，促使我们策划出版了万卷方法系列丛书，献给忠实 
于人文社会科学研究的人们！ 


雷少波崔柷 

2004年6月于重庆大学出版社 



译者前言 


“权,然后知 轻重; 度，然后知长短。物皆然，心为甚。”这不仅 
表明了对事物的数量差异进行度量的必要性，也表明了对不太容 
易观察到的心理现象进行度量的可能性。测量个体的心理现象是 
比较困难的，然而，经过心理测量学家长达百余年的艰若努力，现 
在已经有了不少量表能够较准确地测量到复杂且难以观察的心理 
现象，这对于心理学家研究人的心理现象起到了十分重要的资料 
收集作用。今天，心理测量量表已经广泛地应用于心理学、社会学、 
教育学、经济学等学科领域，是对个体的心理和行为进行定量研究 
的有效手段之一。因此,无论是作为专业的心理学工作者还是作为 
广泛领域的社会科学工作者，他们在自己的日常研究工作中都广 
泛地需要作用“恰当的”量表对其所研究的对象进行数量化的度 
暈，然而，他们往往难以找到真正适合其研究目的的量表，这就需 
要他们根据自己的研究需要自行编制量表。 

然而，量表的编制是一项极富挑战性的工作。一方面，量表的 
编制涉及的知识面比较广泛，不仅包含有关研究对象的专门知识， 
还包含诸如统计学、测量学等关于量表的基础学科知识。要透彻地 
理解量表编制的机制与统计原理，对于那些以社会科学为其知识 
背景的研究者来讲，无疑是一大挑战。另一方面 ，一 个量表要成为 
有效地测量个体心理和行为的工具，必须要具有好的信度和效度, 
而如何保证量表的信度和效度对于研究者来讲，也是一个棘手的 
问題。因此，有一本关于量表编制的著作来指导研究者的学习和工 
作，这显然是必需的。 


6 



大约 14 年前，在我刚刚开始担任大学教师的时候，我就给教 
育学专业、心理学专业的本科生上了教育与心理测量学课程。我当 
时就十分迫切地希望能够有一本理论性、操作性和实用性都很好 
的关于量表制作的教材用于本科生的教学工作。然而，时至今日有 
关量表编制的专著可谓凤毛麟角。有关量表编制的问题常常主要 
是包含在有关统计学或测量学的著作之中，这些著作要么过于强 
调量表编制的统计学原理和测量学原理，要么只注重理论推导而 
不重视实例说明和直观明了的表达形式，从而使得读者感到晦涩 


难懂,可操作 性差， 

《量表编制:理论与应用》一书是美国著名的健康与心理学研 
究专家罗伯特4•德威利斯 (Robert F . DeVellis ) 教授根据自己多 
年从事研究和教学实践而创作的一本关于量表编制的专著。该书 
自第1版问世以来，就在诸如心理学院、公共健康学院、经济学院、 
教育学院等机构中作为研究课程的教材被广泛采用。其成功之处 
在于通俗易懂，直观明了，操作性强，具有可读性。主要表现在以下 
几个方面 t ①采用图表的形式，将复杂的统计和测量学原理直观明 
了地展现给读者:②采用类比的方式来代替数学化的术语,使读者 
感到浅显易懂;③提供大量的实例，使读者感到可操作性强。本书 
是该书的第2版。除保留和改进了第1版“用使基本原理清晰明了 
的方式来传递信息，并使读者能够窥探看起来像‘黑箱’的各种方 
法”这一通俗易懂的特点外，第2版的特点主要是根据社会发展和 
研究的需要，增加或扩充了大量有价值的内容，主要包括表面效 



度、因素分析、项目反应理论、量表鑛制指南与实践技巧等。因此， 
本书无论是从内容上来讲，还是从表现手法上来讲，*具有较高的 
可读性，具有较髙的理论价值和实践 价值。 本书不仅仅适用于心理 
学领域的研究者和实践者，也适用于所有社会科学領域的研究者 
与实践者。 

2004年1月份，重庆大学出版社雷少波先生专程到学校来邀 
请我主持翻译这本专著,本来因为工作忙而准备推辞，但是在我齬 
阅了该书的原著后，我觉得十分有必要将她译介到中国来，使广大 
的中国社会科学工作者和专业心理学工作者能够受益于这本优秀 
的董表编制专著，从而帮助更多的初涉社会科学研究和心理学研 
究工作的人士提高其科研水平，促进中国社会科学研究和心理学 
研究的整体进步。为此，我让我的研究生魏勇刚、龙长权和青年教 
师宋武共同承担了本书的黼译工作，最后由我审校， 

尽管我们怀着战战親鲸的心情反复对照原著翻译、审校和修 
改,但由于译者水平限制，我们的《译工作难免有所疏漏甚至由于 
理解错误而至误译，敬请读者在阅读过程中提出宝贵的意见和建 
议,以便我们在本书的译本修订中加以改进。 


李红 

2004年10月于西南师范大学心理学院 



英文版前言 


作为一本介绍測董概念和測量方法的入门教材，本书的第1版 
得到了广泛的使用。我确信，其成功之处就在于它使复杂的观点变 
得通俗易懂，这也是我的目标所在。此书出版的一个极其重要的出 
发点就在于为了帮助各个水平的学生概念性地 ( conceptually ) 理解 
测量问题。在切普山 （Chapel Hill ) 的北卡罗莱纳州大学的公共健 
康学院，我给本科 生开设 的量表编制的课程吸 引了许 多不同背景的 
学生。在同一学期内，我的学生里既有只学过一门本科统计课程的, 
也有攻读定量心理学博士 （ PH . D.in quantitative psychology ) 的。教 

授该课程的经验表明，不同水平的学生都从这一以清晰的、槪念性 
的和非数学化的术语形式呈现的材料中获得了益处。尽管公式在 
此类课程中是必要的，我尽力用使这些公式清晰明了的方式来解 
释这些概念，它们只不过是合理地简化了运用于数据中的一系列 
操作。我尽力在第1版中介绍一些已获得显著成功的教学方式，在 
此修订版中,我也做了此类尝试。本书的重点在于，用使基本原理 
清晰明了的方式来传递信息，并使读者能够窥探看起来像“黑箱” 
的各种方法。 

此修订版已做了大量的修改。在修订中，我保留了学生们认为 
最清晰、最有用的方法，增加了自第1版问世以来更受重视的主題。 
每一章都有修改，有几章的内容已经很充实。增加了三十多本参考 
书，也保留了许多经典著作，它们在此版中再次被引用。有几章增 
加了图表以使关键点直观化。在第 t 章中，我新增了一些例子，阐明 
了为什么一些变量需要用很多題项来进行有效的评估，而其他的 



变量却不需要，并且对不同的鼉项组合类型进行了更广泛的讨论。 
第2、3章的内容经过修改己变得更为清楚，为了做些调整，我在第4 
章增加了关于表面效度的部分;在第5聿列出了量表编制的指导方 
针，并增加了几个对学生有用的实践技巧:第8章从一个更广阔的 
角度来看测量,并且有所拓展,包括在何处寻找测量工具、髙质量 
的程序如何作为量表编制的基础，以及与不同题项功能相关的一 
些问题。余下的两章,与前一版相比，改动最大< 为了使因素分析过 
程更加生动、更可理解，第6章因素分析在报告的内容范围上有了 
相当大的扩充，并完全重写了。我运用了大量图表来说明文字材 
料。最后，新增加的第7章介绍了一个在第1版中只简要提及的主 
题 项目反应理论 （item response theory ， IRT ) 。我的目的并不 

在于教给读者关于 IRT 的非常复杂的操作性知识和正在研究的方 
法，而是给他们提供一个概念基础，以帮助他们理解在别处碰到的 
更难的材料。 

尽管增加了第7章的内容，本书的重点仍然是经典的测量方 
法。毫无疑问，随着必要的分析所需要的更易进行数据处理的计算 
机程序的运用，像 IRT 这样的理论定会备受欢迎，但经典的方法不 
会消失。尽管存在某些理论上的缺陷，那些方法在多种情景中运作 
得出奇地好。它们的基础和运用都很容易理解 B 在修订版的不同部 
分，我强调了一些我认为 IRT 优越于经典方法的几个十分重要的方 
面。但是，己有的大量研究表明，经典方法仍运行得很好，当 1 RT 处 
于优势时，经典理论并不会随之变为陈词滥调。二者将由于它们存 
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在各自的优缺点而相互并存，从而互相补充。许多应用研究者将不 
会真正需要除了经典测量以外的技术。因此,更让我担心的，不是 
那些掌握了已有的最新方法的人和没有掌握已有的最新方法的人 
之间在测量领域内的差距，而是那些掌握了大量测量概念或方法 
的人与没有掌握任何测量概念或方法的人之间在测量领域内的差 
距，我希望本书的出版能够帮助读者缩小这一差距。 


罗伯特•德威利斯 
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概论 


概述 

测量在社会科学中的历史渊源 

滴 ft 的后续发溪 
淛董在社会 枓学中 的作用 

总结与联免 


在广阖的社会调査领域，渕量是一个焦点。以下面的假设情 
境为例： 

• 健康心理学家面临一个普遑的 难题: 他所需要的测量量表 
(measurement scale ) 往往并不存在，面他需要一个能区分 
个体看医生时他或她想要 （ want) 什么和预期 （ expect) 发生 
什么这二者之间差异的测量尺度。先前的研究并没有注意 
到这两种观点的差异之处，也不存在能精确区分这个差异 
的测量方法。尽管他可以虚构一些能掲示这一差异的题 
项，但是“虚构”的题项可能没有信度，或者所需的概念缺乏 
对效度的说明 9 

• 流行病学家正在对一个国家进行健康调査，获得了大量数 
据进行二次分析 （secondary analysis )。 他想调査感知到的 
心理压力的某些方面和健康状况之间的关系。尽管在最初 
的调査中并没有包含有关压力测量的題项，但最初试图测 
量其他变量的几个题项明显包含了与压力相关的内容。那 
么，把这些题项组织成一个有信度的、有效度的心理压力的 
量表是可能的 a 然而，如果这些糟糕的题项组成的是一个 
糟糕的压力量表，那么研究者可能会得出一个错误的结论。 

• 某营销组试图策划一个关于髙价要儿玩具的商业活动，却 
失败了。群组聚集 （focus groups ) 分析表明，父母的消费决 
策强烈地受到此类玩具是否对儿童具有明显的教育意义的 
影响。营销组猜想，对要儿有着髙教育、高职业期望的父母 
最易受到这类玩具的吸引。因此 * 营销组想从一个更大的、 
地理位置更分散的样本范围内估计这些父母的期望。而对 
另外的群体的研究表明，要得到一个充分大的消费者样本 
的难度太大了。 

在以上任何一个情境中，对特定的实际领域感兴趣的人在研究 
刚开始的时候都遇到了一个测量问題。他们中没有谁最初对测量本 
身感兴趣。然面他们中的每一个人在达到主要的研究目的之前都必 
须找到一个能量化特定现象的方法。在每一个案例中，“现成的”的 
薄量工 M 么是不合适的，要么是不能用的。所有的研究者都认识 
到，如果他们采用随便的薄量方法，极可能只会产生一些不精确的数 



据。 因而，编制他们自己的测量工具似乎是惟一可行的选择。 

许多社会科学研究者遭遇了相似的难题。对这类难®通常的 
反应是依賴于现有 的测量 工具,或者是假定那些新近编制的“看起 
来”不错的问卷题项可以用来进行测量。那些精糕 k 测量所共有 
的倩口是，对编制可靠有效的测量工具的方法感到因难和不熟悉， 
以及很难得到一些关于研究主®的有用信息。研究者试图获得量 
表编制的技巧，这一努力可能导致他们要么获得的是测量专家所 
提供的一些太深奥的原始材料，要么得到的是一些太通俗反而不 
便使用的东西 g 本书讨论了对这些方法的选择和使用。 

测量概述 

测量是一个基本的科学活动 g 我们通过观察人类、物体、事件 
和过程而获得相关的知识 g 要弄清楚这些观察结果常常需要我们 
对其量化，即要求我们测量那些我们有科学兴®的事物。测量过 
程与其所服务的更广泛的科学问题相互作用，二者间的边界常常 
是察觉不到的。二者的交互作用常存在于一个实体被探薄或被精 
炼 ( refined ) 的时候，或者决定怎样量化一个感兴®的现象的时候， 
以及推理给现象本身提供了启示的时候。例如，史密斯、厄普和德 
维利斯 ( Smith,Earp DeVellis , 1995) 调査了妇女对受虐 （ bat ¬ 
tering ) 的感受。 建立在理论分析基础上的一个概念化的模型显示 
了有六种不同的感受。旨在编制一个测量这些感受的量表的实验 
指出，在受虐和未受虐的妇女中 ，一 个很流行的、更简单的概念完 
整地解释了研究的参与者是怎样对给予的40个题项中的37项进 
行回答的4这一发现表明，研究者认为的一个复杂的变量集合实 
际上被生活在社区中的妇女感受到了。在她们眼中，那不过是一 
个单一的、广泛的现象翟了 9 因此，在探测妇女关于受虐感受的过 
程中，我们发现了关于这些感受结构的新的东西， 

邓肯 （ Ducan ，1984) 认为，测量的根基在于社会程序 （social 
processes ), 这些程序以及它们的渕量实际上都先于科学,“所有的 
薄量 …… 都是社会测量，钫理惻量也是以社会为目的的” (P. 35)* 




邓肯注意到，最早的社会测量程序 ，如 投票、人口普査以及工作提 
升系统等，“最初似乎是为了满足大众的需要，而不仅仅是为了合 
乎科学好奇心而进行的实验， ( P . 106> 他进一步指出，同样的程序 
“可以从物理学的历史中得出，古代的人在解决社会和实践问厘的 
过程中，成功地实现了对长度或距离、面积、数董、重量和时间的测 
量，物理科学就是建立在这些成就基础之上的。” (P. 106) 

无论最初的动机是什么，科学的每一个领域都发展了自身的 
一套测量程序。例如，物理学发展了特定的方法和设备来研究亚 
原子微粒。在社会行为科学领域，心理测量学是作为关注于测量 
心理和社会现象的一门附属专业而发展起来&具有代表性的是， 
所用的测量程序都是问卷调査，而变量的性质是一个更广泛的理 
论框架中的一部分 9 

测量在社会科学中的历史渊海 


早期例子 

常识和历史记录支持了邓肯的观点：社会需要使得测量在科 
学出规以前就得到了发展。毫无疑问，一些測量形式已经成为我 
们种族自史前时期以来所具有的技能中的一部分。最早的人们必 
须对物体、财产以及对手做出评估，比如根据对手的某些特点（如 
体格)来对其做出判断，邓肯 （1984) 引用圣经上的文字以说明其 
对测量的关注（例如 ： A false balance is an abomination to the 
Lord , but a just weight is a delight . 即一个虚假的天平是对上帝 
的蘸视，而一个公平的砝码是一种快乐〉，并指出亚里士多德的作 
品中涉及了负责检査重量和测量的 官员* 阿纳斯塔希 （Anastasii 
1968 >指出，古希賸时所使用的苏格拉底方法在某种程度上可以被 
看作是知识测验，它涉及以一种什么祥的方式来理解 事物。 迪布 
瓦博士 （ P , H . DuBois ) 在他1964年的论文中描述到，中国早在公 
元前2200年就进行了行政事务的测量。赖特 （ Wright ，199 S ) 引用 
了古代的关于精确测量的其他的一些重要例子，包括 7 世纪建立 



在“七重” (weight of seven) 基础上的穆斯林苛税。他还指出法国 
革命的爆发在某种程度上是由于农民已经受够了不公 IE 的测量制 
度而导致的。 


统计方法的出现和智力测验的作用 

农纳利 （Nurmally，1978) 指出，尽管系统的观察方法仍在继续 
进行，但由于没有统计方法的运用，一直阻碍着人类能力拥量科学 
的发展。直到19世纪下半期，统计方法才开始被运用。邓肯也发 
现（1984)，在除了几何学以外的大部分数学领域，系统的观察方法 
在基础的统计方法建立之前（他也认为基础的统计方法的建立是 
在19 世纪〉 已达千年之久。达尔文在进化论上所做的工作以及他 
的观察和跨物种的系统变量的測量，使得适当的统计方法在19世 
纪最终得以发展。他的堂兄弟离尔顿男爵 （Sir Francis Galton) 把 
对差异的系统观察扩展到了人类。离尔顿的主要关注点在于解剖 
特质和智力特质 （anatomical and intellectual traits) 的 遗传。 被称 
为“统计学的莫基者”(例如， Allen Ye n ，1979，P. 3) 的卡尔•皮 
尔逊 (Karl Pearson) 是高尔顿的一个晚辈同事，他设计了需要用于 
检査变量间系统关系的数学方法，包括以他名字命名的积矩相关 
系数 （product-moment correlation coefficient )。 这使得科学家能 

够量化变量间相互作用的 程度。 査尔斯 • 斯皮尔曼 （Charles 
Spearman〉 承接其前辈的研究传统，为20世纪初因素分析的发晨 
和普及化莫定了基础。值得一提的是，许多早期正式测验的贡献 
者(包括在20世纪初期，在法国发展智力测验的阿尔弗雷德♦比 
纳 (Alfred Binet)) 都对智力測验感兴趣。因此，许多早期测量学的 
工作都运用在“智力测验”中。 


心理物理学 (psychophysics >的作用 


现代测量学的另一个历史根源来自于心理物理学。把物理学 
的研究程序用于研究感觉的尝试引起了关于測量本质的长时间的 
争论。纳仁和卢斯 （Narens & Luce >1986 年总结了这一争论•他 
们指出，19世纪晚期赫尔曼 （Hermann von HeimholU) 发现了像 
长度和质量这样的榭理属性掮有如正实数一样的内部数学结构。 
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比如时间或长度单位可以像普通数一样排序和添加。 20 世纪早 
期，争论继续进行，英国科技发展协会委员会 (The Commission of 
the British Association for Advancement of Science ) 认为•心理变 
量的基 本澜量 因其在排序或添加感官知觉时面临其固有的难®而 
无法进行。斯蒂芬 （ S . Smith Stevens ) 认为，可用于长度或质量的 
严格添加并非必要，个体可以对声音强度做出还算连续的比率判 
断。例如，他们可以判断一种声音强度是另一种声音强度的两倍 
或是一半。这种比率属性使得来自这些测量中的数据可以进行数 
学处理。斯蒂芬因其把渕量分为定类 （ nominal )、 定序 ( ordinal )、 定 
距 ( interval 〉、 定比 ( ratio ) 这几个尺度而备受关注 9 他还指出•响度 
的判断遵循一个比例尺度(邓肯 1984). 就在斯蒂芬提出其心理物 
理测量等级的合法性时,瑟斯顿 （Louis L . Thurstone 〉 正在发展其 
因素分析的数学基础。瑟斯顿的兴接横跨心理物理学和智力。斯 
蒂芬曾称赞瑟斯顿是把心理物理方法运用到社会刺激测量中去的人 
(邓肯 ，19 S 4>。 因此，他的工作表明，具有不同历史渊源的心理測董 
理论和心理測量基础有相互融合的趋势， 


测量的后续发展 


基 本概念 的发展 


斯蒂芬的测量槪念如同他本人一样有影响力•但那绝不是最 
终的定论。他把测暈定义为“根据规则对物体和事件进行的数字 
分配” (邓肯， 1984) d 邓肯 （1984) 向这一定义提出了挑战。他认为 
斯蒂芬的定义正如“弹钢琴时只根据某些模式敲打乐器的键盘”一 
样，并不完善，测量不仅仅是数字的分配，还应包括遵循某一物体 
或事件的属性……或品质的不同程度进行的数字分配 （ P . 126)。 
纳仁和卢斯（1986〉认识到了斯蒂芬最初关于测量概念的局限性， 
并提出了许多改进意见，尽管如此，他们的工作都 强凋了 斯蒂芬 
得出的基本观点，即是测量模型而不是英国科技发展协会委员会 
所认可的测量类型导致了测量方法可运用于物理科学和非物理科 
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学。在本质上，对基本属性进行测量这些工作 ，使* 量程序在社会 
科学领域的运用具有科学的合法性。 

智力測验的发展 

尽管“智力测验”（或者说，现在更通俗的“能力测验”)一直是 
心理测置学传统的活动领域，但它已不是本书的主要讨论 对象。 
当测量的目的是要测量特征而不是能力时，许多心理测量学分支 
的进步，包括项目反应理论，都欠通俗，可能较难运用到实践中去。 
随着时间的推移，在不同的测量背景中如何运用这些方法，会逐渐 
变得比如何对能力进行评估更加重要，我们将在随后的章节中对 
之进行讨论。因此，我的重点主要是讨论那些在社会和心理现象 
而不是能力的測量中所使用的一些“经典”的方法。 


心理瀾量领埔的扩展 

邓肯 （1984) 指出，社会科学中的心理測量学的影响超越了它 
最初对感觉和智力的濟量。测量学本身是作为一种方法学的范例 
出现的。邓肯用了三个例子来说明测量学的影响：①心理测量学 
对信度和效度的定义被广泛使用；②社会科学研究中因素分析备 
受欢迎;③运用社会科学方法编制的置表所包含的变量数量远远 
多于心理测量学最初所关注的变量数量 （ P . 203)。心理测量的概 
念以及对各种心理和社会现象进行测董的方法的运用，将会是本 
书其他部分的讨论对象。 

测量在社会科学中的作用 


理论与测量的关系 


我们试图在社会科学中进行测量的现象常常来自于理论。理 
论在构建我们需要测量的问题的概念体系方面扮滇着一个重要的 
角色，而且，任何科学领域所测量的东西都来自理论。当亚原子微 
粒通过测董被确认之前，測量仅仅是个理论建构。但是，心理学与 



其他社会科学中的理论与物理学理论是不同的 • 在社会科学中， 
科学家倾向于依赖大暈的只关注相当小范围现象的理论模型，而 
在物理科学中，理论学家较少使用数宇并且研究更综合性的 问题。 
例如*费斯廷格 （ Festinger ) 的社会性比较理论 （ soda 】 comparision 
theory ) 只关注人类经验中一个相当狭窄的范围：人们通过与他人 
的比较来评价自己观点或能力；而物理学家会为建立一个十分统 
一的理论而继续他们的工作，这一理论会在一个单一的槪念框架 
中包含所有关于本质的基本力量。而且，社会科学也不像物理科 
学发展的那样成熟，虽然其理论的发展要快得多。測量的不可捉 
換性、复杂现象的原因的多重性，以及理论本身的发展，都向社会 
科学研究者提出了严峻的挑战。因此，牢记测置的程序并认识到 
它们的优势和缺点是尤其重要的。 

研究者对他们所感兴趣的现象、存在于假设建构中的抽象关 
系以及可利用的定性工具了解的越多,就越有能力去编制可靠的， 
有效的和可用的量表。其中，对研究 的某一 特定现象的具体细节 
的了解，可能是众多需要考虑的问題当中最重要的 一个， 例如，社 
会性比较理论包含许多方面，每一方面都意味着需要不同的两量 
策略。一项研究可能会要求对社会性比 较下一 个搡作性定义，然 
后用其作为其他更髙或更低等级的相对参照标准，而另一项研究 
可能会要求被试参照“典型的个体”从多个维度进行自我评定。通 
过不同的测量从不同的方面获得的同一普遑现象(如“社会比较”） 
的信息可能不会产生相对一致的结论 （DeVdlis et al . ,1991\事 
实上，尽管在描述上使用了相同的变暈名称，但评估的却是不同的 
变量。因此，纗制一个最适合于研究问题的量表需要理解理论的 
精妙之处。 

不同的测纛方法要求不同的评估策略》比如，从一个器皿里 
拿出大暈的硬茚，这是可以直接现察琪的，然而，绝大多数社会和 
行为科学家感兴趣的变暈是不能直接观察到的，如信念、动机状 
态、期望、需要、情感和社会角色认知等。某些不能直接观察的变 
量是可以通过研究程序測定的，但问卷做不到这一点，例如，尽管 
认知研究者不能直接 m 察个体是怎样在其自我图式中建构性别信 
息的，但他们却能通过回忆程序 ( real ] procedures ) 推断出个体是 



怎样建构其关于自我和性别认知的。然而，在许多情況下，用纸笔 
灣试 ( paper * and-pencil assessment ) 以外的其他的方法评估社会科 

学变量是不可能的，也不实际。当我们对测量的理论建构感兴趣 
的时候，这种情形虽然并不总是发生，但却经常发生。因此，一个 
对测量雌雄同体感兴趣的研究者可能会发现，凭借一个精心纗制 
的问卷可以比其他方法更容易得到实验信息 b 

瑁论的与非理论的澜量 


在这里，我们承认，虽然此书的重点在于測量理论的建构，但 
并非所有的纸笔测试都需要理论建构。比如，性别和年龄可以通 
过问卷中的自我报告来确定。这两个变暈可以成为某个理论模型 
的成分，也可以仅仅是某项研究中对参与者的部分描逑，这取决于 
研究的实际问理。某些情境，如要求被试采用纸笔测试形式来回 
答一些问题，例如对医院病人的饮食偏好做出评估，就可以是没有 
理论根据的 0 在其他的情形中，一个研究可能以非理论化的形式 
开始，以明确表达的理论结束 6 比如说，一个市场研究者可能让父 
母列出一张清单，以列举他们买绘孩子的玩具类型。随后，这个研 
究者可能会探究这些清单所包含的关系槙式。在已观察到的玩具 
消费模式的基础上，研究者会设计出一个消费行为的模型 9 其他 
有关非理论化惻量的例子是民意拥验。例如，要求人们囬答他们 
所用的香皂的品牌或者他们试图在选举中投谁一票，这些都很少 
涉及潜在的理论建构的问班。因为研究者的兴趣在于被试的反应 
本身，而不是假定问卷反映了个体的某些特点 

有时，很难区分理论测暈和非理论测量的情境。例如，通过探 
讨投票者对总统候选人的偏爱程度来预测某一选举的结果，与要 
求被试报吿他或她的行为目的是等同的。一个调査者可能要求人 
们回答他们在投票的决策过程中是怎样做到不是从兴®出发，而 
仅仅是从所期望的最后的投票结果来投票的。但是，如果同样的 
问题出现在测量对特定问埋的态度是怎样影响投票者对候选人的 
偏爱时，那么这一研究就可能隐含着一个阐述箱确的理论 9 在这 
一情塊中，获得投票信息的目的不是为了揭示被试将会怎样投票， 
而是为了对个体的特征有一个清晰的呈现 。 在这两种情況中，与 
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测量理论有关还是无关*涉及关于调査者的意图问题，而不是所用 
的程序问醒 a 主要对测量理论的建构感兴趣的读者可参考其他作 
者的著作•如肯维斯和普莱斯 (Converse & Presser, 1986 )、 査迦和 
布莱尔 （Czaja & Biair. 1996 >、 迪尔曼 < Dillman, 2000 )、 芬克 
(Fink, 1995 )、 福勒 （ Fowler, 1993 ,1995 ) 以及韦斯伯格、克劳里克 
和博文 （ Weisberg ， Krosnick，Bowen ,1996) ^ 

测量暈表 

由很多题项构成，并且这些题项构成一个复合分数*试图揭示 
不能轻易用直接方法来现察的理论变量的水平•这样的惻量工具 
常常被称为量表。当我们想和量那些凭借我们对世羿的理论理解 
而相信其存在但又无法直接感知的现象时，我们就编制量表。例 
如，我们可能会用消沉或焦虑来解释我们所现测到的行为。绝大 
多数的理论家都同意消沉或焦虑与我们所看到的行为并不等同， 
但却隐含着某一行为。理论认为，这些现象存在并影响着行为，但 
它们是无形的。有时，通过它们的行为结果来推测其存在可能是 
合适的。然而，在其他情況下，我们可能没有办法得到关于行为的 
信息（如，当我们只能用邮寄的方式来进行调査时 h 也不龃确定怎 
样解释可得到的行为样本 （如 ，当遭遇某一事件时•绝大多数人会 
强烈反应，而某一个人却保持消极状态〉.或者可能不愿意去设想 
行为与所研究的隐含结构是同构的（如，我们怀疑痛哭是喜悦的结 
果而不是悲伤的结果 h 在那些我们不能把行为作为某一现象来 
解释的情境中，采用一个建构良好的、有效的量表进行测量是十分 
有效的。 

甚至是从理论中得出的变量，也是一个从相对具体的、可观测 
的现象到一个相对抽象的、不可观拥的现象的一种内在的连续统 
一体。并不是所有的现象都要求采用多甄项量表 《 multi-item 
scale) e 年龄和性别的确和许多理论有关，但它们却不需要采用多 
题项变量来进行精确的測量。在很大程度上，这些变量都和具体 
的、相对清楚的特点（形态学）或事件（出生日期）有关&除非出现 
某些特殊的情境，如神经受损，否則•被试可以从记忆中轻松地找 
到有关他们年龄和性別的 儐息* 他们可以精确地回答一个问题并 
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评估像性痢和年齡这样的变量。种族划分的争论是一个比性别和 
年龄更复杂和抽象的变量 a 它典型地包含了物质、文化和历史因 
素，因此比性别或年龄要复杂得多 * 绝不仅仅是一个社会建构问 
题。虽然定义一个人的种族划分情況复杂又费时，但绝大多数人 
都能达到自我定义，能通过稍微的沉思或内省来报告他们的种族。 
因此，一个单一的变暈在大多数倩况下足以进行种族的划分 a 尽 
管如此，其他的许多理论变暈都要求被试重建、解释、判断、比较或 
者评估不太容易得到的信息.例如，对已婚的人就以下问埋进行 
测试， g 卩如果他们选择不同的配偶的话其生活也会不同，很可能要 
求有大量的心理活动的参与，而且仅凭一个題项，可雔也解决不了 
所关注的现象的复杂性。在这样的情况下，量表可能是最合适的 
测量工具6多題项可能会抓住此类变量的本质，并达到单一变量 
所不能达到的精确度。就是这种不能直接被观濟到而且又需要被 
试思考的变量，最适合用量表进行评估4 

量表应该与其他能产生合成分数的多题项测量类型相对照 6 
这些不同的题项合成类型之间的差别同时具有理论的和实践的重 
要性，本书的后几章将会揭示这一点。在这本书所用的术语中， 
_量表”包含了伯伦 （Bollen，lS89,pp, 64〜65 f 也可 参见； Loehlin， 
1998, pp. 200〜 202) 所称的“效果指标” (effect indicators) ——即項 
目的价值由一个潜在的结构(或者我在下一章将会涉及的**潜在变 
量”)决定。抑郁量表通常符合量表的特点，即每个題项能估计行 
为的共同原因、行为名称和被试的情绪表达。因此，一个人怎样回 
答诸如“我感到很悲伤”和“我的生活很快乐”这一类问题,很可能 
主要取决于他当时的 感觉。 另一方面，我将用表征 （index) 这一术 
语来描述作为原因指标” (cause imKcators) 的題项集，也就是能决 
定建构水平的那些連项。例如，对总统候选人吸引力的測童，可能 
符合这一类表征的特点 b 题项可能会从候选人的居住地、家庭规 
模、外表吸引度、激励竟选工作人员的能力以及潜在的经济来源做 
出评估。尽管这些特征可能没有共同的*因，但它们可能有共同 
的效果——增加总统竟选活动成功的可能性。单个题项不能决定 
涮验的绾杲，但把他们联合起来就能达到目的 t 对能组合成一个 
合成分数的篇项的分纽来说，一个更一般的术语是突发变量 （ e - 
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mergent variable , 例如， Cohen , Teresi * Marchi , Velez ，1990), 它 
包括一些实体的集合，这些实体共享有某些特征并且在一个共同 
的类别标题下能够被归在一起。对特征进行分组未必就表明分在 
同一组内的特征之间就必然有因果联系.比如说，以少于5个字 
母的单词开头的句子很容易就被归在一起，尽管它既没有共同的 
原因也没有共同的结果。一个突发变量的“突然出现”仅仅是因为 
在研究的题项中发现某人或某事（正如一个数据分析程序）具有相 
似的类型。 


不所有的量表都是等同的 

遗憾的是，并非所有的题项合成都是认真地编制而成的 a 对 
许多量表来说 * 汇编 （ assembly 〉 可能比编制 （ developmem ) 更合适。 
研究者常常匆匆拼凑或挖掘一些题项并假定他们能组合成一个合 
适的量表，并未考虑这些题项是否有共同的原因（因此产生一个置 
表)或有共同的结果（因此产生一个表征 h 仅仅因为都是一个更 
上位水平类别内的成员，也并不意昧着这些题项要么由共同的原 
因引起，要么导致共同的后果（因此建构一个突发变量）。 

研究者可能在编制量表时不会利用理论，也可能因为错误地 
解释了一个量表所测量的内容而产生一个错误的理论结论，一个 
不幸的问题是，研究者在某一测量可能不能反映其所假定的变量 
时，便得出了某一建构是不重要的或某一理论内部是不一致的结 
论。之所以产生这种情况，是因为我们在研究中很少直接检査变 
暈之间的关系 t 如先前所提到的，一个我们容易忘掉的事实是，许 
多有 S 的变量并不能直接被观察到9可观察的中介 （ proxy ) 和不 
可观測到的变量之间会产生混淆。例如，乍想起来似乎可以直接 
观察到血压和体温两个变量，而我们实际观察到的是作为中介的 
水银柱 9 我们假定可观測的中介与它们打算表现的隐含变量之间 
是密切联系的 B 正如温度计这一例子，我们把温度计的水银水平 
作为“温度”，尽管严格地说，它只是对温度的一个可视化的表现 
(如热能）。实际温度和测量到的温度之间密切相关，而涉及的测 
量(水银所达到的测量 价值） 变量（热能量）几乎总是无足轻重的。 
当变量和它的指标之间的关系比温度计那个例子中的关系要弱得 
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多时，这种徵弱的关系试图要掲示的现象可 能使激 量变得混淆起 
来，从而得出了错误的结论。考虑这样一个假设情形:研究者希望 
在现存的数据集上进行一个二次分析，我们假定研究者对社会支 
持在后来的职业成就上的作用感兴趣。研究者发现，可利用的数 
据集包含了许多有关被试在一段时同内的社会地位的信息，并且 
要求他们回答是否已经结过婚。事实上，在不间时间所收集的几 
个题项都是关于婚姻的。再做更深一步的假设，在缺乏能提供更 
洋尽的社会评估数据的情况下，研究者会把收集到的婚姻题项组 
合成一个量表，并把它作为测量社会支持的量表 9 而许多社会科 
学家都认为，把社会支持和婚姻状况等同起来是不合适的0这一 
等同不仅会忽视社会支持的其他重要方面（如对受到的支持的性 
质的感知)也会包含潜在的不相关的因素（如测量时成人与儿童的 
地位问題〉。如果研究者在运用这一评估方法的基硪上，由假设得 
出这一结论——社会支持在职业成就中不起作用，那么就完全错 
了。事实上，这种对照是在职业成就和婚姻状况之间进行的，只有 
当婚姻状况实际显示了支持的水平，得出的结论才是有效的。 

劣质測暈的代价 


如果一个最差劲的测量是惟一可以利用的测量，那么使用它 
的代价会比得到的好处要大得多 9 在社会科学中很少出现那种为 
了避免可怕的结果而立即采取措施的情境。当别无选择时，只能 
设法把手边上的最好的工具拿来应付 9 然而，甚至在这些很少见 
的情境中，在运用劣质量表进行測量时，其固有的难题并没有消 
失。使用不能评估假设所需要评估的内容的测量，会导致错误的 
结论0这是否意昧着我们只能使用那些经历过严格的缠制和具有 
广泛的效度的测量工具呢？未必。尽管在某些情境中，有缺陷的 
测量可能比没有测量要好得多，但我们应该认识到什么时候我们 
的测量程序是有缺陷的，并相应地调整我们的结论 9 

研究 者常常 会认为，相对于那些研究中的重要的科学问题而 
言，洒量是不那么重要的，因此他们会努力通过较少使用量表而达 
到“有效利用”量表的目的尽管如此，大量的测量仍然是有效研 
究的必要条件。研究者应该争取把他们感兴趣的理论建构和他们 
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所实施的测量方法等同起来。劣质的测量极大地限制了研究结论 
的有效性 9 对于一个较关注实际问題而对测量本身不感兴趣的研 
究者来说，从一开始就尽可能使研究的测量正确无误，这是十分重 
要的，并且在以后的研究中应该把它当作是理所当然的事。 

研究者为了降低被试的负担也会错误地利用太过简单的量 
表 6 但事实上，即使是半数的被试完成的可靠量表，也要比全部的 
被试完成的不可靠的量表会产生更多的信息 9 如果你不能确定数 
据的含义，那 么所收 集的数据量便失去了 意义。 因此相对于被试 
完成的能产生有效数据的更长版本的量表，能够便捷地完成但不 
能产生有意义的信息的量表只不过是浪费时间和精力0 


总结与展望 


本章强调测暈是包括行为和社会科学在内的所有的科学分支 
中的一个基本活动6心理测量学，作为社会科学中一个关注社会 
及心理现象的测董的特殊领域，其历史可追溯到远古时代。在社 
会科学中，理论在量表的编制过程中起着至关重要的作用，而在量 
表纊制过程中，题项的分组反映了潜在的理论变量的水平。尽管 
如此，并非所有的题项集都能在这个意义上合成董表。编制量表 
比随意地挑选題项要复杂得多。利用不恰当的测量常常得不 
偿失。 

后面的章节将更详尽地讨论量表纊制的基本原理和方法，第 
2章探讨了“潜在变量”，即一个量表试图董化的潜在建构，它是后 
面聿节所描述方法的理论基础；第3章为量表的信度以及隐藏的 
信度系数提供了一个概念化的基础；第4章则评价了量表的 效度； 
第5章是关于量表编制的实际引导 步骤; 第6章介绍了量表编制的 
因索分析概念并推述了它们在量表编制中的作用；第7章对量表 

编制的方法之-项目反应理论进行了一个概念性的 介绍； 最 

后一章则简单讨论了量表怎样适合更广阔的研究过程。 
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潜在变量 

Undenrandmg the Liirenr Variable 


结构与涵 s 

作为谗項值的 fK 设 fi Bit ■的潜 it 变董 

$ 役 (path diagram) 

测 t 模型的进一步阐述 
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其他的模型 
觫 习 




本章主要通过一个概念图式 （conceptual schema ) 来理解測量 
与这些测量所表示的结构之间的关系，虽然这并不是惟一可以利 
用的结构。项目反应理论则是我们将在第7章中要探讨的另外一 
种测量观点。因为其在概念方面和操作方面都具有相对的可利用 
性，并且使用广泛，因此我强调经典的测量模型，这种模型假设每 
一个题项都是潜在结构的可比较的指标。 

结构与测量 

一般来说，研究者对结构感兴趣，而不是对题项或量表本身感 
兴趣。例如，一个测量父母对孩子的期望的研究人员，会对父母的 
情感以及父母对孩子将来的成就所抱的希望这些无形的东西感兴 
趣，而不是对父母在问卷上所做的那些符号感兴趣。然而，在很多 
情況下，记录下被试对问卷的回答将会是昶量这些情感与期望的 
最好方式 . 换句话说，这是必需的，因为很多结构都无法被直接测 
量 t 在某种意义上，测量是我们所无法直接观察到的很多变量的 
代表。通过评估各个测量之间的关系，我们可以直接推导出结构 
之间的关系 6 例如，在图 2.1 中，虽然我们的最初目的在于测量变 
暈 A 和 B 之间的关系，但事实上我们是在与这两个变量有关的测 
量之间关系的基础上来评价二者之间的关系的。 

一个量表要反映的潜在现象或结构通常被称为潜在变量 （ la ¬ 
tent variable ) fl 所谓潜在变量，顾名思义，它反映了两个主要的特 
征 6 我们以刚才所提到的父母对孩子的成就的期望为例来说明这 
两个特征。首先，它是潜在的，而不是显现的。父母对孩子的成就 
期望是不可以直接观察到的。此外，结构是可变的，而不是恒定 
的，它的某些方面，例如强度或大小 （ magnitude 〉 在 变化。 父母对 
孩子的成就期望可能会随着时间（例如，在婴幼儿期间与青少年期 
间）、地点(例如，在运动场上与教室里面）、人物(倒如•具有不同背 
景和职业的父母）以及其他因素的组合而变化.在这种对孩子的 
成就期望事例中•潜在变量是真正令人感兴趣的现象。虽然我们 
无法直接观察它或量化它，但是潜在变量在一些具体的环境条件 
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田 2. 1 只有当毎一个藹置与其灌在变最相对应时，工具之间的关系才与 
潜在变置之间的关系相:&对应 


下，大概具有一个特定的值。所编制用来惻贵潜在变■:的 M 表的 
目标在于，评估所測 M 的每一个被试在测谈当时当地的实际大小。 
而这个无法观察的“实际大小”就是实际的分数。 

作为题项值的假设性因素的潜在变量 

潜在变董的概念表明了其与作用于它的题项之间的某种关 
系。潜在变釐被认为是題项分数的原因，即是说，潜在变量的强度 
或数量(例如，它的实际分数的值）可能导致某个题项（或题项集 
合 ) 具有某个值。 

以下就是评估父母对孩子的成就期望的一些假设题目： 

• 我的孩子的成就决定我自己的成功。 

• 我思意做几乎任何事情来确保我的孩子的成功。 

• 如果有助于我的孩子取得成功，再大的牺牲都不为过。 

• 对我而言，没有其他任何事情比我孩子取得成就更重要。 
如果让父母表示在多大程度上赞同以上每一个題项的话，他 
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们对其孩子成就的潜在期望便会影响他们的反应换句话说，每 
一个题项都应该给予潜在变量——对孩子的成就的期望 •-一 的强 
度一个指标。而在每个题项上所获得的分数是由特定的时间及特 
定的稽在变量的强度或数量决定的。 

潜在变量和测量之间的因果关系表明了某些实验关系。例 
如，如果一个題项值是由一个潜在变量造成的，那么在这个值与这 
个濬在变量的实际分数之间就应该是相关的4因为我们不能直接 
获得这个真实分数，所以不齙计算其与題項之间的相关 9 然而，当 
我们考察可能由同一潜在变量引起的一整套®项时，我们就能考 
察它们之间的相互关系。因此，如果我们有几个像以上测量父母 
对孩子的成就期望那样的 H 项的话，我们就能直接看出它们之间 
是如何相关的，并且把潜在变量当作这些题项之间相关的基础，以 
及使用这一信息来推测每个題项与瘠在变量的相关備况。稍后, 
我将阐述所有这些如何能从題项之间的相关而得到9首先我要介 
绍一些图表方法，以使得这些阐释更加清晰。 


路径图 （path diagram) 


在这里，与本问题有关的内容仅限于与量表的编制相关的话 
題。对于该问題的更深人探讨，请参阅阿希尔 （ Asher ，1983) 和洛 
林 ( Loehlin ，1998) 的研究。 

图表愤例 

路径图是一种用来推述变量之间因果关系的方法 • 虽然它们 
能够与在数裾分析方法中的路径分析一起使用，但是，路径图作为 
详细说明一套变量是如何相关的方法有更广泛的 用途。 这些图表 
需要遵循某些惯例。从一个变暈标签指向另外一个变量标签的一 
条直线箭头表明这两个变量是因果相关的，并且结果所在的方向 
就是箭头所指的方向。因此， X — Y 清楚地表明 X 是 Y 的原因, 
通常*联想路径 Ussociational path ) 也由变量标签来确定，例如图 
2,2中的字母 
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X 


•Y 


S 2.2 从 X » Y 的 B 果路径 a 


而箭头的缺失也有其隐含意义，即这两个变量是不相关的 9 
因此; A — B—C D -> E 表明 A 是 B 的原因， B 是 C 的原因 ，（： 和 
D 不相关，而 D 是 E 的原因。关于路径图的另外一个惯例是表示 
“误差”的方法，而该误差通常被描述为一个额外的原因变量。这 
个误差项 （Error term ) 是“残差” （ Residual 〉 ，它表示所有在图表中 
不能被所明确表述的原因解释的变化的原因。 

因为误差项是残差，因此根据我们关于 X 和 Z 的知识 （在 该事 
例中） ，它代表了 Y 的实际值和我们所预测的 Y 的值之间的偏差。 
有时候，这个误差项是假想的，因而并没有包括在图表中（图 2. 3)。 



围2, 3两个变置加上》袭决定 Y 
量表编制中的路径图 

路径图能帮助我们清楚地看出题项是如何与潜在变董成因果 
相关的 * 也能够帮助我们理解题项间的某些关系是如何暗 示了頚 
项和潜在变量之间的关系的。我们从考察路径图的一个简单计算 
规则开始。让我们来看图 2. 4中的简单路径图。 

路径中的数字是标准化路径系数 （standardized path coeffi - 
ciem >。 每一个数字代表由箭头所联结的变量之间的因果关系的 
强度。系数是标准的，这一事实意味着它们都使用相同的刻度来 
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B 2.4 具有路径系數的路径图，可以用来计算变 量之阃 的相关 

量化因果关系。在这个图中， Y 是\到\的原因。在路径系数的 
值和 X 8 ( 在量表编制型路径图中•代表題项）间的相关之间存在着 
一个非常有用的联系 6 对于像这个图表一样，只有一个共 同源头 
(该例 子中的 Y ) 的图表，任何两个又之间的相关值等于通过 Y 形 
成的 X 变量之间的路线中箭头上的系数的乘积 # 例如， X ,和&之 
间的相关可以通过由 Y 把它们联结起来的标准路径系数的乘积来 
计算。因此， r us = 0.6 X 0.1 = 0.06。 变量 I 和 X ? 也共享一个 Y ， 
尽管联结它们的路线要长 一些。 然而，规则仍然适用。由&开始， 
我们反向找到 Y ， 再往前寻到 X〆 或者，我们可以反过来，从\寻 
到 X 7 >， 结果为 ： 0, 3 X C . 3 X 0. 4 X 0, 2 = C . 0072,因此， r 6 . 7 = 
0. 0072。 

路径系数和相关之间的这种关系为评估潜在变暈和对之造成 
影响的題项之间的路 径提供 了一个基础，虽然潜在变量是假设性 
的并且不可测量，但是睡项是实实在在的并且它们之间的关系可 
以直接计算。通过使用这种关系，即我们刚刚所讨论的简单规则 
以及关于这些题项与实际分数之间的关系的假设，我们可以得出 
关于题项和潜在变量之间的路径的估计值。我们可以从变量之间 
的一系列相关开始 。 然后，从路径与相关之间的关系往后计算，如 
果假设是正确的话，我们就能够计算出某个路径的值。让我们来 
看图 2. 5中的,例子。 
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B 2.5 带有误 塞項的 路径困 


这 堪图与 先前所讨论的图相似，但在以下几个方面有所 区别: 
没有路径值，变量 Xs 和1被去除了，剩下的 X 变量代表量表题项， 
并且每个题项都有一个变暈（误差，用 “ e ” 来标注），而不是由 Y 来 
影哨它。这些 e 变量在每个題项惰境中都是独特的，并且表示不能 
由 Y 所解释的“残差”。这楮图表明，所有的题项都受 Y 的影响 6 
此外，每个题项还要受一系列全部被当作误差的独特变量的 影响。 

这幅修订过的图表明5个单独的题项是如何与一个潜在变量 
Y 相关的。 e 和 X 的下标数字表明，这5个题项是不同的，并且与 
之一一对应的5个误差来源也是不一样的。在这幢图中没有箭头 
表示直接从一个 X 联结到另外一个 X ，或者从一个 e 到另外一个 
e ， 或者从 e 到与它没有联系的其他它的这些特征是我们稍后 
将讨论的一些假设。 

如果我们有一群人所完成的5个实际的题项，我们就会有这 
些®项的分数，并且我们可以得到它们之间的相关值。先前所讨 
论的规则使我们能够从路径系数来计算相关。加上其他的一些假 
设，它也可以使我们从相关来计算路径系数——即是说，从实际靨 
项计算得来的相关能够用来决定每个题项是如何与潜在变量相关 
的。例如，如果1和\有一个相关值为 0. 49的话，那么我们就能 
知道从 Y 到毛的路径值的乘积，并且从 Y 到&的路径值也等于 
0,49,我们能够知道这些，是因为我们已经建立了的规则，即两个 
变量之间的相关等于联结它们的路径上的路径系数的乘积 # 如杲 
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我们也假设这两个路径值是一样的，那么它们分别为 (>• 70/ 


测量模型的进一 步阐述 


经 典的测 量假设 

经典的测量模型首先有一些关于题项及其与潜在变量和误差 
来源的关系的 假设： 

•与各个变量相联系的误差的数量随机变化6当与各个变量 
相联系的误差在大量的被试样本中合计时 * 其平均值为零。 
因此，当有大量的被试来完成题项时,题项的平均值几乎不 
受误差的影响> 

• 一个题项的误差项并不与另外一个题项的误差项相关！联 
结题项的路径会经过潜在变量，但是决不会经过任何误 
差项。 

•误差项与潜在变量的实际分数不相关。注意，从潜在变量 
出发的路径并不向外延伸到误差项> 题项与其误差项之间 
的箭头所指的方向相反。 

以上前两个假设是作为很多分析程序的基础的一般统计假 
设，第三条实际上把误差定义为残差，即对预测值与结果，或者，题 
项与其潜在变量之间的所有关系充分考虑之后而余下的值。 


平行测试 （parallel tests) 

经典的测量理论，传统上是建立在平行测试的假设之上的。 
平行测试这个术语来自于以下事实，即人们可以把每一个单独的 


• 里然一 0.70 也是 (X 49的一个平方根，但是在正根和负根之间作出一 个进择 ，一 
«并不如我们所想的那样受关注，只要使所有的题项之间成 正相关 (如果番要，«如第 
5章所讨论的那样，通过对某些题项进行反向记分），那么从潜在变童到每个题项之间的 
路径系数的符号就会一样，并且是任意的《然而要注意，给这塋路径以正号暗示题项显 
示了 靖构以 外的一些东西，而负的系歎则有相反的瞄示， 


23 



题项看作是潜在变量值的一个测试 。 就我们的目的而言，说“平行 
题项”可能更准确些 6 然而，从遵从习惯的角度讲，使用传统的名 
称更易为理解和接受。 

平行测试模型的一个优点在于，根据我们对题项之间相关情 
况的观察，它的假设使我们非常容易得出关于每个题项与潜在变 
量是如何相关的结论。在此之前,我认为，如果有题项之间的相关 
方面的知识与一些假设，人们就能对从原因变量联结到题项之间 
的路径进行推測。就如在接下来的一章中所要讲到的那样，能够 
把一个数值分配给潜在变量和题项本身之间的关系是非常重要 
的6因此，在这一节中，我将详细地讨论平行测试的假设是如何得 
出这种可能性结果的。 

作为平行测试模型基础的基本原理是，量表的每个题项既是 
对潜在变量的一个精确测量，也是对量表题项的任何其他成分的 
精确測量。因此 * 每个题项都是严格地平行的•即是说•每个题项 
与潜在变量的关系和每一个其他题项与该潜在变量的关系是完全 
相同的，并且出现在每个题项中的误差数量也是相同的。图2, 6 
可以用来表示这个模型。 


L 



围 2.S 平行测试樓型围，这里所有从灌在变量 （L) 到 fl 项 (X,、X ; 、Xj 
的路径 的值彼此相等，从误差项到麵项也是如此 


该模型在以前所列举的图表的基础上增加了两个 假设: 
• 潜在变量对每个题项的影响程度被假定都是一样的。 
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•每个题项和其他的任何题项一样，都有相同的误差总量，即 
除了潜在变量以外的因素的影响在所有题项中都是相 
同的。 

这些增加的假设意味着每个题项与分数之间的相关是相同 
的。能够断定这些相关相同这一点非常重要，因为这将有助于我 
们采用什么方法来决定这些相同相关的值。反过来，它也将决定 
量化信度的方法，这将在下一章中讨论。 

断定实际分数与每个题项之间的相关是相同的，就喬要前面 
所提到的两个增加的假设，平方相关 (squared correUtkm ) 是两个 
变量之间所共有的方差的比例。 

因此，如果实际分数与两个题项中的每一个之间的相关是相 
等的，那么该实际分数与每个題项之间所共有的方差的比例也是 
相等的。假设实际分数对两个題项的每一个所提供的方差数量是 
相同的。如果这些题项具有相同的总体方差，这个数量就可能是 
每个题项的总体方差的相同比例。为了使总体方差对两个题项来 
说都是相同的，每个题项从除了实际分数以外的其他因素中获得 
的方差数量也必须相等。由于除了实际分数以外的所有方差来源 
与之聚集在一起都称为误差，这就意味着这两个題项必须有相同 
的误差变化。例如，如果 K 从实际分数那里获得了 9个任意的方 
差单位而从误差那里获得1个单位，那么实际分数的方差比例就 
是整个方差的90%。如果 X 2 也从实际分数那里获得了 9个方差 
单位，并且总体方差是10的话,那么这9个单位就是整个的90%。 
如果像又一样，误差为 X 2 所提供的方差单位为1，那么总体方差也 
只能等于10。因而，每 个题项 与实际分数之间的相关就等于作用 
于实际分数的每个題项方差的比例的平方根,在这里大约为 0. 95。 

因此，由于平行测试模型假设从潜在变量而来的影响数量对 
于每个 题项来 说都是一样的，并且从其他地方（误差）而来的影响 
的数量也是相等的，所以对于所有題项来说，由于潜在变量和误差 
的作用所导致的題项方差的比例也是一样的。这也意味着，在平 
行测试的假设条件下，从潜在变量到每个题项的标准路径系数对 
于所有的题项来说也是相同的。标准的路径系数是相同的，这一 
假设使从題项之间的相关来计算路径系数成为可能，正如在前面 
的例子中所讨论的那样。前面所讨论的联结路径系数和相关之间 
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的路径图原则，会帮助我们理解当我们接受了先前的假设以后为 
什么这些等同性会存在。 

这个模型的假设也表明，题项之间的相关是相同的(例如&和 
X 2 之间的相关与1和\,以及&和&之间的相关一样）。我们是 
如何从 偎设得 出这样的结论的呢？之所以说相关全部等同，是因 
为解释任何两个題项之间的相关的机制是通过潜在变量而联结这 
些題项的路径。例如，又和 x 2 仅仅是通过由^和七所组成的路径 
所联结的。二者之间的相关可以通过寻求联结该问题中的两个題 
項的路径并且把路径值相乘来计算。对于任何两个题项，这就是 
把有相同值(例如 q =« 3 ) 的两个路径相乘。通过乘以相同的 
值而计算得来的相关当然会是相同的。 

这个假设也表明，埋项之间的每一个相关等于从潜在变量到 
一个題项之间的任何路径的平方。我们怎么得出这个结论的呢? 
两个不同路径(例如 A 和的乘积等于每一个路径的平方，因为 
两个路径系数都是一样的。如果4=々=« 3 ，并且（4>^ 2 )- 
〈 fll X <2 3 ) = ( a 2 Xa 3 )， 那么每一个乘积一定等于自身相乘的任何一 
个•路径 ( fl - paths ) 的值< 

从这个模型的假设中我们也可以知道，与每一个题项相联系 
的误差的比例，是与潜在变量相联系的方差的比例的余数。换句 
话说，潜在变量所不能解释的对某个特定题项的任何影响一定能 
眵由误差来解释。这两个影响一起对任何特定理项的方差做了 
100 K 的解释。这一点非常筒单，因为误差项〃，被定义为包含除潜 
在变量以外的 题项中 的所有误差来灞。 

这些假设至少支持了另外一个结 论：因 为每个题项受潜在变 
量的影响是均等的，并且每一个误差项对相应題项的影响也一样， 
所以这些题项都有相同的平均数和方差值。如果能影响平均数的 
仅有两个来源对于所有題项都一样的话，那么很显然这些題项的 
平均数肯定也会是相等的。这个推理也适用于理项方差值。 

总而言之，平行测试模型 偎设： 

• 随机误差。 

•误差之间彼此不相关。 

• 误差与实际分数不相关。 

• 潜在变量对所有題项的影响相同。 
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•每个题项的误差量相等 6 

这些假设使我们得出各种各样有趣的结论。此外，该模型使 
我们能够根据題项彼此之间的相关来推测潜在变量，但是，要达到 
这一点，该模型必须设定这四个严格的假设。 


其他的模型 


正如测量学所进展的那样，为了有效地推测实际分数和观察 
值之间的关系，与平行渕试相伴随的所有严密的限制性假设是不 
必要的。一个建立在被称为“基本 Tau 相等测试 ” (essentially tail - 
equivalent test ， 有时候也叫做“随机平行测试 ”， randomly parallel 
test ) 基础之上的模型做出了较自由的假设，即是说,与特定题项相 
联系的误差变异的数量不必等于其他题项的误差变异（例如， 
Allen & Yen , 1979). 因此，从潜在变置到每个题项的标准化的 
路径值可能不相等。然而，从潜在变量到每一个题项的非标准化 
的路径值(例如，与潜在变量对每个題项的影响的比例相对的数 
量〉 也被假设为对于每个题项都是相等的。这就意味着，在受潜在 
变量的影响但是不一定受完全同等程度的聚集在一起被称为误差 
的外在因素的影响程度方面，题项是平行的。在严格的平行假设 
下，不同的齬项不但同等程度地作用于实际分数，而且它们的误差 
成分也是一样的。 Tau 等价（在实际分数中， “ ta U ” 是希賸符号，等 
于 “(”) 更容易被承认，因为它不影响“相等误差”条件 * 因为误差可 
能会变化，因此超项值和方差值也有可能变化。对于该楱型的更 
为自由的假设更有吸引力，因为要寻找到对于相同方差值的等同 
测量是很难的。这个模型使我们能够得出许多与我们用严格的平 
行测试但是限制性较少的假设所得出的结论相同的结论。读者可 
以把这个模型与农纳利和博恩斯腾 （ Bernstein ) 所讨论的“领域取 
样模型 ” （domain sampling model ) 相比较。 

一些量表编制者认为，甚至基本的 Tau - 等价模型也是限制性 
的。因为，我们不能经常假设每个題项受潜在变量的影响相同。 
研究者在所谓的同属模型 （congeneric model Joreskog ，1971) 指导 
下编制了一些测试来验证一套更为松散的假设（对于同属测试的 
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进一步讨论，请参考卡尔弥那斯和麦克艾维尔1981的研究， Car ¬ 
mines & Mclver t 1981) g 它仅仅假设〈超越了基本的测量假设)所 
有的题项都共享一个普遑的懵在变量。它们不必与潜在变量保持 
相同程度的关系，并且它们的误差变异也不必相等。但是必须假 
设每个题项在某种程度上反映了实际的分数。当然，每个題项与 
实际分数相关越紧密，量表就越可信。 

一个不那么拘泥的方法是综合因素模型 （general factor mod ， 
el ), 该模型允许多个潜在变量作为一套特定题项的基础。卡尔弥 
那斯与麦克文维尔 （Carmines Mclver ， 1 9 81)、洛林 （ Loehlin ， 
1998)、隆 ( Long , 1983) 已经探讨了这种非常普遑化的模型的价值， 
主要是它与现实世界中的数据之间的一致性得到了改善。结构等 
式建模方式 （structural equation modeling approach ) 常常把因素分 
析合并成其测量槙型。多个潜在变量作为一套指标的基础这些情 
况为综合因素模型提供了例征 ( LoehHn , 1998). 

同属模型是因素模型的一种特殊情况 〈例如 ，单因素情况 
类似地，基本的 Tau - 等价测量也是同属测置的一个特例——在这 
神情况下,理项与其潜在变量之间的关系被假设为相等的。最后_ 
当增加一个假设，认为每个题项与其相关的误差源之间的关系相 
等时，严格的平行测试就是基本的 Tau •等价测试的一个特例， 

此外还有一个测量策略应当被提到。这就是项目反应理论。 
在编制能力 JW 试中 * 这种方法已经和二分反应 （ dichotomous - re ¬ 
sponse , 例如正确与不 IE 确） 题项一起被广泛使用 ，但它不是惟一 
的。在题项反应的更广类别中，不同的模型也许是以标准的，或者 
越来越頻繁地，以： g 辑的概率函数 （logistic probability function ) 为 
基础。 IRT 假设每个单独的题项对潜在变量有其特定的敏感性， 
用题项一特征曲线 （ item-characteristic curve , ICC ) 来表示 9 ICC 
是潜在变量(如能力）的值与对一个题项的某个反应（如正确回答) 
的概率之间的关系的一个图示 6 因此，这条曲线反映了一个題项 
需要多少能力才能得以正确回答。我们将在第7章中进一步讨论 
IRT 。 

除了在第7章要讨论 IRT 以及在第6章中要讨论因素分析以 
外，基于以下几个原因，我们将着重探讨平行和基本的 Tau - 等价模 
型。首先，它们例证了经典的測量理论.此外，讨论其他模型得以 
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运行所依赖的机制会很快变得繁重。最后，对那些对测量有着初 
步兴趣的社会科学家来说，经典的模型是非常有用的，而对于那些 
对测量极为认真的人而言.却并非如此3这群人正是本书的读者《 
对于这些人，从一个经典的模型发展而来的董表编制程序会产生 
令人满意的量表9实际上，虽然就我所知道的而言，没有任何一个 
记分方式是现成可用的•但是我怀疑（能力测试以外）在社会科学 
研究中所使用的大量的众所周知的并被髙度关注的董表是使用这 
些程序编制出来的。 


练习 

I } 根据两个题项之间的相关，我们怎么能够推断潜 
在变量和与潜在变量相关的两个題项之间的关系？ 

2〉平行测试和基本的 Tan •等价模型之间在假设方面 
主要有什么不同？ 

3) 哪个测量模型仅仅假设：在对所有的测量方法都 
普遡的基本假设之外，題项共享一个相同的潜在变量？ 
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Reliability 


莲绫题 项与二 分厢项 
内部 一致技 （internal romistciicy) 

以董表分数间的相关为箪础的信度 
0M ft 理论 （geneMliMhility tlwrory) 

总结 


信度是心理学测量的一个基本话题。一旦它的含义得以充分 
理解，其重要性就显而易见了。量表的信度是指与潜在变量的实 
际分数的方差比例。虽然有很多计算信度的方式，但是它们都立 
足于这个基本的定义 a 然而，人们怎么样计算和操作信度会随着 
人们所使用的计算方法而变化。 


连续题项与二分题项 


虽然题项可能有各种各样的反应形式，但是在本章中我们假 
设題项反应由多值反应选项 （ multiple-value response options ) 所 
组成。二分題项（例如，只有两个反应选项的题项如“是’’或“否”， 
或者有多个反应选项并且这些选项能够被分为“正确”与“错误”) 
在能力测试中被广泛使用•个别情况下也在其他测量情境中 使用。 
例如： 

(1) 苏黎世是瑞士的首都。①正确②错误 

(2) P 的值是多少？ ① 1.41 ② 3 .U ③ 2. 78 


利用二分反应的计算简单性来计算信度的很多方法已经编制 
出来了。一般的测量课本，如农纳利和博恩斯腾 （Nimrmlly & 
Bernstein , 1994) 所编著的课本，都详细地介绍了这些方法6这些 
方法在测评信度的逻辑性方面，在很大程度上能与应用于多点、连 
续量表题项的更一般的方法相媲美。为了使行文简短些，本章将 
简要提及有关由二分题项所组成的量表的信度评估。这种量表的 
一些特征将在第5章中介绍。 

内部一致性 （internal consistency) 

内部一致性信度，顾名思义，与一个量表中的题项的同质性有 
%。以经典的測量模型为基袖的量表的目的在于澜量一个单一的 
现象6正如我们在前面一章所见到的那样，测量理论表明，题项之 
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中的相关与题项和潜在变量的相关之间有某种逻辑联系。如果一 
个量表的题项与其潜在变量之间有很强的相关的话，那么它们彼 
此之间也有很强的相关.虽然我们无法直接观察到題項与潜在变 
量之间的相关，但是我们肯定能够确定題项之间是否彼此 相关。 
一个量表的内部一致性程度会影响其题项之间相关6什么能够解 
释題项之间的相关呢？有两种可能:题项之间具有因果关系（例如 
题项 A 是题项 B 的原因）或者®项之间具有一个共同的原因。在 
大多数情况下 ，前 者的解释是不可能的，从而使后者成为更 明显的 
选择。因此，高的内部埋项相关表明，这些題项都测量了同样的东 
西(例如•是其表现）。如果我们做出如前面一聿中所做的假设，我 
们也能得出这样的结论 I 題项之间的髙相关表明題项和攢在变量 
之间的高度相关。因此，一个复合暈表的单维度量表应该由一套 
相互关联的题项所组成。测童多种现象的复合量表——例如，多 
维健康控制点量表 （ multidimensional health locus of control, 
MHLC.Wallston et al. * 1978) ——实际上就是相关量表的一类； 
每个“维度”就是一个单独的量表， 

阿尔法系数 (coefficient alpha) 

内部一致性通常等价于克若恩巴齐 ( Cronbach ， 1951 >的阿尔 
法系数基于以下几个原因•我们将详细讨论一下阿尔法。首 
先•作为对信度的一个测量，它被广泛使用。其次，它与信度的定 
义之间的联系，与我们稍后所要讨论的其他情况下的信度测量 〈例 
如其他形式的方法）相比，更具有不证自明的特点。因此，对于那 
些对其信度的内部原理不熟悉的人来说，阿尔法可能会比其他信 
度计算方法更为神秘。最后，对阿尔法计算所隐含的 逻辑的 探索， 
为比较其他方法如何把握信度的本质提供了一个可靠的基础。 

众所周知的库德尔一瑞査镲松 20 公式 (Kuder-Richardscm 20 
fonnuU 〉 就是二分題項的阿尔法的一个特殊版本 （Numially & 
Bernstein, 1994 八 然而，正如前面所述，我们将重点讨论应用于有 
多个反应选项的題项中的更普逋的形式。 

你可以把一套题项分数中的所有可变性 (variability) 看作是由 
以下两者之一所导致的：①暈表所測量的现象中的个体的实际变 
化(例如，在潜在变量中的实际变化）；②误差 I 事实就是如此，因 
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为经典的测量模型把“现象”(例如病人对于控制他们与医生之间 
互相影响的期望)看作是在量表分数中所有相同的变化的来源，而 
把 64 误差”看作是剩余的或不同的变化(例如无意造成的一个题项 
有两个含义 h 考虑这一现象的另外一种方法是，把整个变化都看 
作有两个或分 :信号 （ signal ， 例如_在病人对控制的期望中的真实 
差异）和嗓音 Cnoish 例如，除了由控制意愿所造成的真实差异之外 
的其他一切东而所导致的得分差异 K 正如我们所要看到的那样， 
计算阿尔法把一套題项中的整个变化划分为信号和嗓音两个成 
分.在整个变化中作为信号的比例等于阿尔法。因此，考虑阿尔 
法的另外一种方法是它等于1减去误差变化，或者，反过来，误差 
变化等于1减去阿尔法， 

协方差矩样 (covariance matrix ) 


为了更充分地理解内部一致性，讨论一下一套量表题项的协 
方差矩阵是很有帮助的。一套量表的协方差矩阵反映了该量表作 
为一个整体的重要信息。 

协方差矩阵是相关矩阵的一种更普逍的形式< 在相关矩阵 
中，数据已经被标准化了，方差值被设定为 1.0; 在协方差矩阵中， 
记录的数据没有被标准化 8 因此，在非标准化形式中，它包含了与 
相关矩阵相同的信息》协方差矩阵对角线上的因素是方差——题 
项自身之间的协方差——正如相关矩阵中的主对角线上的单位元 
素是变量的 1.0 标准化方差以及与其自身之间的相关一样。其对 
角线外的值是协方差，表达了标准化的变量组之间的关系，正如标 
准化中的相关系数一样.因此，从概念上来看，协方差矩阵由以下 
两方面组成，①单个变暈的方差(在对角线上 h ②代表标准的变量 
组之间的非标准化关系的协方差（在对角线 外〉。 

表 3.1 列举了 X ,、 X 2 、 Xs 这三个变量的一个典型的协方差 
矩阵 8 

另外一个在某种程度上更简洁地使用惯例符号来表达矩阵、 
方差和协方差的方法如下： 
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JTl C\.Z tfl.3 

ffl.2 Os ffg.3 

ffn.3 Og.a 


表 3.1 三个变量的方塞和协方塞 



Xi 


x. 

X ： 

Vari 

Cov, it 

Cov u3 

x 2 

Cov U2 

Vars 

Cov ?i3 

X3 

Cdv j>3 

Cov Ui 

Var 5 


鼷项量表的协方差矩阵 


让我们把注意力集中在一套组合起来就可以构成一个量表的 
题项的协方差矩阵的性 质上。 以上所呈现的协方差矩阵有三个变 
量: X ^ X ^ X ，。 假设这些变量都是三个題项的实际分数，并且这三 
个®项 , x ,、 x 2 、 x 3 ，组合在一起时就构成了一个量表，我们称之为 
Y 。 这个矩阵能够吿诉我们关于毎个题项与作为一个整体的量表 
之间的关系的什么信息呢？ 

一个协方差矩阵有许多有趣的 〈至 少是有用的）性质 8 其中之 
一就是，假设所有题项都具有相等的权重的话，那么把该协方差矩 
阵中的所有因素加在一起(例如，把对角线上的方差和对角线外的 
协方差加在一起），就会给出一个数值，该数值刚好等于整个量表 
的方差值，因此 * 如果我们把符号化的协方差矩阵尹的各项加起 
来的话，那么其结果数值就会是量表 Y 的方差值。这点非常重要 • 
并且能够经受重复验证 ：如果 假设所有题项权重相等的话 ，由所 
有題项所组成的一个量表 Y 的方差值等于该协方差矩阵中所有題 
项值之和。因此，由三个相同权重的题项，又、乂 2 和 5 Q ， 组成的量 
表 Y 的方差值，与该协方差矩阵的题项之间有如下关系： a 〖 = C , 
即： 


* 对于权 a 篇项 •» 方差通 过典积而增加，方差最过它们相应的篇項权重的平方而 
增加.关于这一点的更完整的&述，参着农纳利的著怍<378 9 P . 154-156). 
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想了解关于这节所讨论的话題的更多信息的读者，可以参考 
农纳里 （ Nimn a ] ly , 1978) 对协方差矩阵的讨论以及纳蒙波第瑞 
( Namboodiri , 1984) 对统计学中的矩阵代数的介绍。对于单个題 
项的协方差矩阵有很多其他有用的知识没有在这里讨论。关于題 
项的协方差矩阵的应用在波恩斯特德 ( Bohm S t e dt ，1969) 的研究中 
有讨论 a 

阿尔法与协方差矩阵 


阿尔法被定义为，一个量表中由共同的因素所引起的总体方 
差的比例,大概是潜在变量的实际分数，而该潜在变量是所有題项 
的基础 8 因此，如果我们想计算阿尔法的话，有一个量表的总体方 
差值以及作为“共同”方差的比例的数值是很有帮助的。协方差矩 
阵正是我们想做到这一点所需要的。 

回想一下我们在第2章中所用来描述題项与潜在变量是如何 
相关的图，如图3.1。 


B 3.1 



Xi - ex 

X 2 - - 

x 3 -- 幻 

X4 -- e 4 

X 5 -- e 5 


用 B 来表示有五个■项的一个集合如何与共网的潜在变量 Y 相关 


題项中归因于潜在变量 Y 的所有方差都是被分享的或共有的 
(有时也用术语“共同的”或“公共的”来推述这种方差> 8 当 Y 变化 
时(例如，当其发生变化时，它表示各个題项会有不同水平的性 
质>，所有題项上的分数也会随之而变化，因为它是导致这些分数 
的原因。因此，如果 Y 值很高，那么所有这些題项分数也会 很高; 
如果 Y 值较低，则它们也会较低。即是说,®项会共同变化（例如， 
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彼此相关）。因此，潜在变量影响所有題项，因而它们是相关的， 
相反，误差项则是 每个题 项所拥有的独特方差的来豚。尽管所有 
題项都有由 Y 所引起的差异性，但是在我们的经典测量假设条件 
下，没有哪两个题项会都有来自于相同的误差源所造成的方差 8 
某个给定误差项的值只能影响一个鼴项的分数 8 因此，误差项彼 
此之间并不相关。因而，每个題项（以及所暗含的由所有题项所共 
同组成的整个量表)作为以下因素的函数而变化：①其自身和其他 
組项所共有的方差 来源； ②我们称之为误差的、独特的、不共享的 
方差。由此得出结论•对于每一个题项以及因此而作为一个整体 
的量表的总体方差肯定是来自共同和独特因素的方差的一个复 
合*根据信度的定义•阿尔法应当等于共同因素方差与总体方差 
的比率， 

现在,我们来考虑一下一个被称为 Y 的 f B 项 U - item ) 霣表 • 
其协方差矩阵如下： 



该項暈表的方差等于所有矩阵元素之和。主对角线 
上的记录是矩阵中所表示的单个题项的方差《第£ 个醒项 的方差 

用符号表示为因此，主对角线上的元素的和是单个题 

项的方差之和。因此，协方差矩阵为我们计算以下两个值提供了 
现成的通路:①量表的总体方差 <，被确定为矩阵中所有元素的 

和;②单个 H 项的方差之和 ^ crf , 通过把主对角线上的记录相加 

来计算。这两个值可以给予一个槪念上的解释。从定义来看，整 
个矩阵之和即 Y 的方差，是由单个題项所组成的童表9然而，正如 
我们所说的•这个总体方差能够被划分为不同的部分 8 

通过探究在主对角线上的元素与所有对角线外的元素的不 
同，我们来探讨一下协方差矩阵是怎样区分共同方差与独特方差 
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的。所有的方差(对角线元素)都是单一变量或者“自身变量” ( var ¬ 
iable ^ with - it se 〖 f > 題项。 我早先就已经说明，这些方差能够被看作 
是题项与其自身的协方差。每个方差仅仅包含一个题项的信息。 
换句话说，每一个方差所代表的信息都是以单一题项为基础的，而 
不是题项之间所分享的共同方差（在这个单一题项之内•其中一些 
变化会归因于共同的潜在变量 ，因而 会与其他题项共享；一些则不 
会。然而，该题项的方差不会量化共享方差的程度，而仅仅是那个 
题项的分数中的离差量，也不考虑这种离散是什么造成的）。协方 
差矩阵中对角线以外的元素都涉及题项组，因而涉及两个量表题 
项之间共同的或联合的方差（协方差）。因此，协方差矩阵中的元 
素（因而 Y 的总体方差）由协方差(如果你愿意的话，也可以用共同 
方差） 加上与单独考虑的题项有关的非共同的或非共有的方差所 
组成。囹 3. 2表示了协方差矩阵的这两个细分部分。对角线中的 
共享区域是矩阵的非共有部分，而在对角线以外、三角边界内的两 
个区域一起，是共有部分。 


共有的—— 



非共有的 — ^ 


图 3- 2方差-协方差矩阵表明主对角线上的方差（阴彩部分）是非共有的, 
而对角线之外的协方差（非明影部分）则是共有的 
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由于有且只有协方差表示共有的变化，因此所有的非共有的 
变化一定要被表示在协方差矩阵的主对角线上的方差之中，因而 
由 2(7? 来表示。总体方差，当然是由4来表示，即所有矩阵元素 
的和。因此,我们把 Y 中的非共有方差与总体方差的比率表 示为： 


这个比率相当于协方差矩阵中的对角线值 之和， 由此可以得 
出结论，我们能够把共同的或共有的方差比例表示为其所剩余的 
部分，即是说这个值的补集，表示为： 

1 - ( 4 ) 


这个值相当于协方差矩阵中所有对角线外的值之和。计算对 
角线元素并把它们从作为一个整体的协方差矩阵的值中减去，并 
不是最理想的方法。为什么不把对角线以外的元素的和直接计算 

为呢？这里, f 和 j 分别表示在一个特定的协方差中所涉及 

的两个题项。事实上，通过直接计算对角线以外的元素之和，我们 
会得出完全相同的结果。以上那个包含1的减数的公式是那个计 
算机还不发达的时代的遗产。计算 Y 的总体方差以及单个題项 
可能是用作其他目的的搡作而完成的。即使没有必要为了其他目 
的而计算这些方差，考虑一下所涉及的计算量吧！对于一个有20 
个 H 项的量表来说，就在计算21个方差（每个題项一个，另外整个 
量表还有一个)或者计算190个协方差（例如，矩阵中对角线以外 
的380个元素各一个，这些在对角线以上和以下各不相同）或者总 
体方差之间进行选择。因此，把共有方差量化为从总体方差中去 
除掉非共有方差而剩下的部分比最初显然要合理些。其公 式是： 

或者： 
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这两个公式所表示的值，乍一看似乎抓住了阿尔法的定义•即量表 
中题项的共同因素造成了总体方差的共有部分，我们假设这反映 
了潜在变量的实际分数6然而•我们仍然还需要一个修正 & 如果 
我们有五个完全相关的题项.并且如杲我们考虑将会发生的情况 
的话.这种修正将会更为重要，将会提高我们编制量表的信度。这 
种情况中的相关矩阵应该由一个所有值都等于 1.0 的 5 X 5 的矩阵 
组成。由此，前一个等式的分母的值应该等于25.而其分子的值却 
只能等干20•因而得出其信度为 2 C /25, 或者0_ 80而不是 L 为 
什么会这样呢？协方差矩阵中的元素的总体致量是 V •矩阵中非 
共有的元素（例如•那些沿看主对角线的元素）的數量是 I 因而那 
ft 共有的元素（所有那些不在对角线上的元素）的数量为 h'-K 
因此•我们最后 一 个公式中的分数有一个以 k l - k 的值为基础的分 
子以及一个以的值为基础的分母。为了调整我们的计算以便这 
个比率表达的是相对大小而不是在分子和分母中所分別相加的项 
( term ) 的数量•我们乘以表示共有方差的比例的整个表达式的值， 
从而抵消在所有相加起来的项的数量中的方差。为了达到这一目 
的，我们乘以即 A / U _ lh 这就把阿尔法的可能值 
限定在 0.0 到 1.0 这个范围之内。在刚刚讨论的五个 B 項的例子 
中，用 0.80 乘以5/4得到适当的 1.0. 读者可能想心算一下其他 
大小的矩阵。但是结杲很明显，当題项都是完全相关的时候, 
去 / U -1) 总是能得出一个阿尔法为 1. 0的乘数 • 因此，我们得出 
了关于协方差阿尔法的一般公式： 



总之，一个暈表的信度等于量表中总体方差在题项中的比例; 
这个总体方差是由潜在变量引起的，因而也是共有的 8 计算阿尔 
法的公式表达了这一点，它指定了题项集的特有的总体方差的比 
例，然后从1中减去这个比例从而决定共有部分的比例，然后再乘 
以一个鏤正因数来为先前计算锹出贡献的元素的数量进行 调整。 
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计算 H 尔法的另外一个公式 

汁算阿尔法的另外一个一般公式是以相关为基础的，而不是 
协方差。实际上，其使用了？，即平均题项间相关 a 这个公式是： 

k ? 

°"l + ( A - l)r 

从逻辑上看，它是由以协方差为基础的计算阿尔法的公式推导出 
来的。我们从概念术语的角度来考察一下协方差公式： 


注意，右边项中的分子和分母是单个值之和。然而，这些单个 
值之和等于平均值乘以所涉及的值的数量（例如， a 个数字加起来 
等于50,因此 * 乘以那些数宇的平均值也等于50。为了进一步证 
明这一点，用10来替代前一句中的 h 加起来等于50的10个数值 
的平均值等于5,而10乘以5等于50,与原始的和相等的数值）。 
因此，右边项的分子肯定等于纟乘以平均理项方差5,而分母一定 
等于纟乘以平均方差加上 （V — 4)，或者— 1) 乘以平均协方 
差⑺： 


k f, kv 1 

A — lL kv + k ( k -\) c m 

为了把 “1” 从这个等式中去掉，我们可以用与其等价的[>立+ 
iCfe — 来代替它，这就使我们把右边的整项 
化为一个比率： 


k rkv + k ( k ^ l ) c — kv m 
4 — 1 L k v + k(k — l)c ■ 


或者，与之等 价的: 
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从左边项的分子和右边项的分母中约掉 h 同时从右边的分子 
和左边的分母中一起约掉 ( A — 1 )，得到一个简化的表达式： 


_ kc 

我们所寻求的公式涉及相关而不是协方差，因而是标准化的 
而不是非标准化的项，标准化之后，协方差的平均值就等于相关 
的平均值,并且方差值为 1 . 0 。因此，我们可以用题项间相关？，来 
代替？，用 1 . 0 来代替这就得出了以相关为基础的计算阿尔法 
系数的 公式： 


一 kr 

这个公式被称为斯皮尔曼-布朗预占公式 （ Spearman-Brown 
prophecy formula 〉 ，而其重要的用途之一将会在本章中讨论分半 
信度的计算时得以体现。 

这两个不同的公式，一个以协方差为基础而另外一个以相关 
为基础，有时候分别指计算阿尔法的原始分数公式和标准化分数 
公式。原始分数公式在计算过程中保存了題项均值和方差值的信 
息，因为协方差是以保留了原始数据的原始测量的值为基础的。 
如果屬项有显著不同的方差，当这个公式被用来计算阿尔法时，那 
些有较大方差的题项将比那些有较小方差的题项被给予更大权 
重。而以相关为基础的标准化的分数公式并不保留题项的原始測 
量公制 （scaling metric )。 相关是一个标准的协方差 9 因此，在标准 
化公式中，所有的题项被放在一个共同的公制上，因此在阿尔法的 
计算中权重相等。哪一个更好，这取决于特定情境以及是否需要 
相等的权重。为编制题项而建议使用的程序要求构建它们的措辞 
体系，以便使題项之间产生可比较的 方差。 这 一点* 我们将在接下 
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来的章节中将谈到，当按照合理的程序运算时，由这两种方法所 
计算出来的阿尔法系数中的方差一般很小。而当其目的在于产生 
相等的題项方差的程序未被遵循时，我们就会看到标准化的和原 
始的阿尔法值有明显方差(例如， 0.05 或更多），这预示着至少有一 
个题项有与另外一个题项的方差明显不同的方差。 


信度与疣计能力 


与信度较低的量表相比，信度高的量表增加了特定大小样本 
的统计能力（或者使一个比之较小的样本产生了相等的统计能 
力〕 8 例如，为了使两个实验组之间的一个特定数量的方差有一个 
特定的信度•我们需要一定大小的样本，得到这样一个方差（例 
如，测暈的统计能力）的可能性可以通过增加祥本大小而增大.在 
很多应用中，通过提高测量的信度，也可以达_同样的效果。一个 
有信度的测量，与较大的样本一样，会给统计分析造成较少的错 
误。在两者都可以运用的研究情境中，研究者应该努力衡量增加 
量表的信度与增加样本大小的相对优势。 

通过提高信度而获得的统计能力依赖于许多因素，包括最初的 
样本大小、所设定来检測 ; ^(Type I )错误的概率水平、所设定的显著 
效果的大小(例如，平均方差），以及造成量表无信度的误差方差比例 
(而不是样本异质或其他因素）。要精确地比较信度增强与样本尺度 
增大之间的关系，就要求以上这些因素具体化。以下这些例子就证 
明了这一点。假设有这样一个研究情境,1类错误的概率水平被设定 
为 0.01, 两种方法之间的10点 (10- point ) 差异被认为是重要的，误差 
方差等于100,而样本大小必须从128增加到 172( 增长了 34%)，以 
便提高 F 检验的能力，从 0. 80提高到 0. 90,减少整个误差方差，从 
100到 75( 减少了 25%)，会产生完全同样的结果而没有增加样本的 
大小。 用一个有较高信度的量表来代替一个信度较差的量表也可以 
达到这一效果，例如另外一个例子, N =50, 信度为 0. 38,并且其相 
关值 ( r =0.24), 仅仅在 p <0,10时达到显著的两个量表，如果它们 
的值度增加到 0. 90的话，它们会在 p <0. 01时达到显著。如果信度 
仍然保持在 0. 3 S , 那么要在 p <0. 01时达到显著的话,则需要一个两 
倍大的样本 8 利普塞 ( Upsey ，1990) 提供了一个关于 统计* 力的更广 
泛的讨论，包括涮量信度的作用。 


42 



以量表分数间的相关为基础的信度 


除了内部一致性信度外，还有其他一些信度。计算信度的这 
些方法涉及在多种情况下，相同的被试完成一个量表的两个单独 
的版本或同一个 版本。 


信度的交 替形式 (alternative forms ) 


如果一个量表存在两种严格平行的形式的话，那么只要相同 
的人都完成了这两个平行的形式，就可以计算它们之间的相关了。 
例如，假设研究者最初编制了两套相同 W 題项，目的在于测量当病 
人与医生相互交流时其对控制的欲望，然后把这两套題项都运用 
到一组病人身上，最后求一套題项的分数与另外一套題项的分数 
之间的相关。这个相关就是交替形式的信度。这些平行形式是由 
题项所组成的，而所有这些題项（无论是在形式内部还是形式之 
间）都同样很好地测量了潜在变量。这就表明，这个量表的两种形 
式都有相同的阿尔法、平均值以及方差值，并且测量了相同的现 
象。本质上，平行形式由一套題项集合所组成，这些题项或多或少 
任意地被分成两个子集，而这两个子集构成了量表的两个平行而 
交替的形式。在这些条件下 ，一 种形式与另外一种形式之间的相 
关值就等于每一种形式与自身之间的相关值，因为每一种交替形 
式就等于另外一种形式。 


折半信度 ( split-half reliability ) 


交替形式的信度存在着一个问题，即我们通常找不到能够严 
格地遵循平行测试的假设的一个量表的两种 版本。 然而，能够找 
到把同样的逻辑应用到一个单一的题项集合中去的其他信度评估 
方法。因为交替形式本质上是由一个单一的题项库所组成的，这 
些題项被分成两组，由此我们可以：①选取组成一个单一量表的題 
项集合(例如，一个没有任何其他形式的量 表）； ②把这个題项集合 
分成两个子集;③求这两个子集的相关来评估信度。 

这种类型的信度测量称为折半信度。折半信度实际上是计算 
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方法的一个种类而不是一个单一的类型，因为有大量的方法可以 
把这个量表分成两半。一种方法是把題项的第一半与第二半相比 
较。然而，这种“前半后半分割”可能是有问題的，因为除了潜在变 
量的值以外的因素（换句话说，即误差来源）会对每个子集有不同 
影响 4 例如，如果所研究的问题中构成量表的題项分敢在一个较 
长的问卷中，当被试在完成量表的第二部分时就会更疲倦。于是 
这种疲倦就会在这两部分之间系统地变化并且由此会造成它们之 
间显得较不相似。然而，这种不相似性不会是題項本身的一个特 
征，正如在量表的题項頫序中它们的位置一样。另外一些会使先 
測试的部分与后测试的部分产生差别的因素有：练习效应使被试 
随着实验的进行而回答得越来越好，没有完成整套理項，甚至可能 
包括从前面到后面印刷质量方面的变化这些琐事也会造成影响。 
由于疲倦，这些因素会降低两个部分之间的相关，这是因为量表中 
题项所呈现的頫序面不是因为最表题项的质量所造成的。由于这 
些因素的结果，对理項之间的相关值进行薄置，会由于与理項质量 
不直接相关的因素而变得复杂，从而导致一个错误的信度评估4 
为了避免由于題項頫序所造成的缺陷，我们可以评估另外一 
种类型的折半信度，被称为奇•偶信度。在这种情况下，由奇数构成 
的題项子集与由偶数构成的題项子集进行比较。这就保证了这两 
个子集中的每一个理項都包含量表分段(例如，开始、中间和结尾) 
中的一个相同数目9假设題项順序是不相关的（例如，与一般的成 
就测试的"由易到难"顺序相反），这种方法避免了许多与前半部分 
和后半部分这种分半有关的问题 6 

理论上来讲，还有很多其他的方法也可以获得分半信度。作 
为以上所讨论的组建題项子集的方法的替代物，另外两个方法是 
平衡分半 （balanced halves ) 和随机分半 （random halves ) e 对于前 
一神情况，我们将识别一些重要的題項特征（例如以第一人称揩 
辞，理项长度，或者问题中的某个特定类型的反应表示的是特征的 
出现或者缺失）。在构成这个董表的两个部分中，每一个部分都有 
相同的特征，因此，研究者应该以某种方式分配这些題項，从而使 
每个子集都有相同数量的以第一人称措辞的题项，相同数董的短 
題项等等。然而，当考虑复合題项的特征时，平衡了一半就很难平 
衡另外一半。例如，如杲长的第一人称題项比短的第一人称題項 
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要多的话•就会出现这种情况。为后面的特征实现了平衡,这必然 
会造成前者的不平衡< 此外，还很难决定题项的哪些特征应该被 
平衡。 



B 3.3 路径 B 表示一个瀏量的两个分 M 部分(X,和 X 2 ) 

与它们的共有潜在变量之》的关系 

仅仅通过把題项分配给这两个子集中的任意一个，研究者就 
会取得随机分半，最后来求这两个子集之间的相关从而计算信度 
评估。这項工作成功与否，取决于 ffi 项的数量、所涉及的特征的数 
量以及特征中的独立性 程度。 期望一个小数量的题项，并且随着 
几个内部相关的维度变化，从而通过随机化得到可比较的分组，这 
是不现实的。但是，随机地把随着两个或三个不相关的特征变化 
的50个題项分配给两个类别，这样也会得到合理的可比较的 
子集 9 

采用矚一种方法来进行分半最好,这取决于特定的情境 * 最 
重要的是，研究者应当考虑，怎么样划分题项会辱致不相等的子 
集，并且能够采取什么步骤来避免这种情况发生 9 分半信度和交 
替形式的信度，关于这两者背后的论证，都是平行测试模型的一个 
自然延伸。 

当我们最初讨论一个模型时，虽然我们把每个题项当作一个 
“测试'但是我们也可以把与这个模型一致的一个量表 〈或 者一个 
量表的两个部分)看作是一个“热试' 因此,我们可以把在多个题 
项情况中所使用的原理运用到一个量表的两个交替形式或者两个 
分半情 a 中去。在平行測试假设下考虑两个“测试”（量表分半或 
者交替形 式）。 

从潜在变量到每一个变量之间的表示因果关系的路径•组成 
了连接这两个变量之间的惟一路径。因此，这些路径的值的乘积 
等于这两个测试之间的相关值。如果路径值必须相等（并且，在这 


45 



种模型的假设下，它们确实 相等〉 ，那么这两个測试之间的相关值 
就等于从潜在变置到任意一个测试之间的路径值的平方。这个路 
径的平方 (假 设它是一个标准化的路径系数）也是受潜在变量所影 
响的任意一个测试中的方差比例 9 反过来•这也就是信度的定义。 
因此，这两个恻试之间的相关值就等于每一个测试的信度 • 

鉴于前一段中所指的“测试”是在交替形式情况中的一个量表 
的两个完全版本，因而它们在分半情况中则是两个分半量表，因 
此，求两个分半部分之间的相关•就得到了整套题项的每一部分的 
信度评估，但是这是对整个題项集合的信度的一个低估。以量表 
的一个部分的倌度为基础，对整个量表的信度的评估•可以通过在 
本章中先前所讨论的斯皮尔曼-布朗公式来计算。回想一下这个 
公式： 


kr 

l + (4- l)r 


这里纟是问題中的 K 项数量，而？是任何一个 K 项与另外一个题项 
之间的平均相关(例如，平均内部理项相关）。如果你已经知道了 
一个题项子集的信度(例如•通过分半的方法），并且知道作为这个 
信度的基砒的®项数量(例如，整个量表中 e 项数量的一半〕，你就 
可以用这个公式来计算 h 然后，你可以把这个？值和整个量表中 
的题项数量带回到公式里 s 以在量表的分半中所计算出来的一个 
信度值为基础，得出的结果就是整个量表的信度的估算结果。如 
果你在斯皮尔曼-布朗等式中使用一点代数学知识，从而把它变成 
以下这种形式的话，问題就简单化了 } 





这里^是问题中的題项集信度。例如，如果你知道两个含有9个 
鼉项 的分半部分的折半信度等于0, 50,你就可以照这样来计算 h 


F= [ 9 - 1 x 6 . 9]- a5 
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然后你可以在斯皮尔曼-布朗公式中使用 r = 0. 5， k »18 来计算整 
个有18个题项的量表的信 度了。 因此，整个董表的信度估算为： 


18 X 0. 5 
1 + C 17 X 0.5) 

其结果等于 9/9. 5或者 ()• 947( 注意增加了題项数量增大了信度 • 
很快地看一下斯皮尔曼-布朗公式，我们就明显知道，如果所有其他 
条件都一样的话，一个较长的量表比一个较短的量表更可信）。 

暂时的稳定性 


另外一个计算信度的双分数 （ two - score ) 方法 * 涉及量表的暂 
时稳定性，或者从一种情境保持到另外一种情境分数如何保持不 
变。通常，测试-重测信度 （ test-retest reliability ) 是使用来评估这 
一指标的 方法。 在测试与医生交流的病人对控制的欲望时，假设 
研究者仅仅缟制了一套题项而不是两套题项，分两个不同的时间 
给同一组病人测试这些题项，然后把第一阶段所得的分数与后一 
阶段测试的分数求相关。作为这种类型的信度测量的基础，其基 
本原理是，如果一个测量的确反映了一些有意义的结构，那么在不 
同的阶段里它所评估的结构应该有可比性。换句话说，潜在变量 
的实际分数应该对在两个(或更多）时期中所观察到的分数有可比 
较的影响，而误差成分在整个量表的测试中应该不会保持恒定9 
结果，对相同个体所实施的一个量表的两个测试中所取得的分数 
的相关，应该表示潜在变量对所观察到的分数的决定程度。这就 
与信度的定义相同，是由潜在变量的实际分数所造成的方差的 


比例。 

但是，这个推理的问题在于，分数随着过去的时间所发生的变 
化可能(或者不可能）与测量程序的误差倾向有关。农纳利 （ Nun - 
nally ,1978) 指出，即使当所感兴趣的结构已经发生了改变时，题项 
的特征可能使它们产生暂时稳定的反应。例如，如果某个焦虑測 
试既受到社会期望的影响又受到焦虑的影响，那么分数可能会保 
持稳定，而不管其在焦虑中的变化如何。分数中的稳定性，在不同 
时期的测试中的高相关中被反映出来，但不会是在所研究的现象 
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中的悝定性表现 0 然而，这个现象不可能会变化，而所变化的只是 
测量中的 分数。 即是说，这个量表是不可信的。或者，实际上当现 
象本身已经变化了并且测量也完全跟随其发生了变化时，分数中 
的变化可能是由于非可靠性导致的。问题是•造成一个变化的出 
现或者一个变化的缺失的原因，除了测量程序的可靠性与不可靠 
性以外，还有各种各样的因素。克里 和麦克 格瑞斯 （Kelly & 
McGrath , 1988〉确定了当我们在不同的时间检测同一量表的两套 
分数时被混淆的四个因素，它们是:①所研究的结构中的真实变化 
(例如，在被试样本中的平均焦虑水平中的净增长）；②现象中的系 
统波动(例如，焦虑中的变化，在一些恒定的平均值周围，作为白天 
时间的一个函数）；③由被试或測量方法中的方差而不是由所研究 
的现象所引起的变化(例如，疲劳效应造成题项被误读>;®由于测 
量程序固有的不可靠性而造成的暂时的不稳定性。在这些因素当 
中，只有第四个才是非可靠性。这些研究者也注意到，虽然像多特 
征-多方法矩阵方法 （ nulltitrait-multimethod matrix approach ， 将在 
下一章中讨论)这些方法能够有所帮助，但是绝不可能完全澄清这 
些因素。 

这并不是说证明暂时的稳定性不重要。在任何研究情境中， 
假设(或证明)按不同时间分开的测试具有高相关，这样的陈述都 
会受到批评。然而，我们在这些情境中所寻求的稳定性，既是测量 
的稳定性也是现象的稳定性。当我们自以为现象已经保持稳定的 
时候，拥试-重测试相关仅仅告诉了我们关于洒量的情况。这种自 
信不是经常有保证的。因此，测试•重测信度虽然重要，但是最好认 
为它反映了关于一个现象的本质和测量的信息，而不单单是后者。 
把随着时间变化的分数中的恒定性看作是暂时的稳定性更好些， 
因为它并不像洒试•重测信度所表明的一样,测量中的误差是我们 
所观察到的任何非稳定性的来源。 


概括化理论 （generalizability theory) 


到目前为止，我们对信度的讨论一直集中在把所观察到的方 
差划分为由潜在变量的实际分数所造成的部分和误差 部分。 这一 
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节简单地介绍一个更一般的框架来划分误差和非误差来源中的 
方差。 

在我们把一个更好的划分误差方差的思想应用到测量中去之 
前，让我们来考虑一下一个更一般的研究范例，在这个例子中检验 
了大量的变化来源。假设一个研究者想测试一个培训项目的有效 
性，该培训项目的目的在于提髙专亚成就。再假设该研究者在一 
个大样本的大学教授以及一个对比样本的艺术家中进行这个培训 
项目。 该研究者还选了一些教授和艺术家作为对比组，他们不参 
加培训项目但是要和培训项目的参加者一起接受相同的成就评 
估。当对这一研究进行总结时，研究者可能得出结论认为，关于这 
些成就的观察结果，反映了系统变化的三个可以确认的因素的作 
用:①参加者与非参加者；②教授与艺术家；③这些因素之间的相 
互作用。在这种情境中合理的分析策略是对所获得的分数进行方 
差分析 ( ANOVA 〉， 在分析的时候，把这些引起变化的因素都分别 
当作一个维度 6 本质上，这种分析策略会把所观察到的关于成就 
的分数中的整体方差划分为几个来源：培训的参与，职业•它们之 
间的相互作用，以及误差。误差表示除了由前面的因素所确定的 
来湄以外的所有差异来源。 

现在，考虑一个假设的情境。在这个情境中，研究者正编制一 
个关于自治愿望的量表。量表的研究对象是年长的个体，并且这 
些人中的一些可能有视觉问 ffi 。 接下来，研究者决定对那些阅读 
有困难的人进行口头上的自治愿望测验，而对其余的参加者则进 
行书面形式的测试。 

此外，对于研究者来说，通过使用方差分析的方法，有可能承 
认作为分数中的变化来源的测试 模式。 如果分析结果证明了测试 
方法之间的差异解释了分数中的总体变化的不重要部分•那么在 
完成口语版或书面版的被试的分数的可比性方面，研究者就有更 
髙的自信。另外一方面，如果分数中所观察到的总体变化的显著 
数量是由于测试模式造成的，那么研究者就知道，对于分数的任何 
解释都要考虑测试模式之间的这种差异。 

概括化理论（例如， Cronbach ， Gleser , Nanda , Rajarat - 
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nam , 1972) 提供了一个框架来检验我们所能假设的一个或多个维 
度的测试过程的相等程度< 在前面的例子中，问题中的维度是测 
试模型。问題中的每个维度都是变化的一个潜 在来源 ，并且被当 
作一个方面来考虑。这个例子集中在把模型当作变化的惟一潜在 
来源（除了个体〉。在这个例子中，研究者希望概括化 • 因此，这个 
例子只涉及一个方面。 

根据槪括化理论的说法，在一方面的所有水平中 （例如 ，这个 
量表既有口头形式的测试也有书面形式的测试）所获得的观察数 
据组成了一个可以接受的观察总体，这些观察的均值被认为是总 
体分数 （universe score 〉 并且类似于经典测试理论中的实际分数 
(Allen &- Yen ，1979 ) B 概括化研究 （gerveralizabiUty study )， 或者 
G - 研究，其目的在于决定一个方面的不同水平中的分数的可比较 
性程度.关于自治愿望这一假设性研究躭是 G •研究的一个例子， 
因为它表明了测试模型这一方面的不同“水平”的作用。 

G - 研究的目的在于帮助研究者测定某个方面对概括化的限制 
程度或不限制程度。如果一个方面（例如，测试 模型〉 解释了在所 
观察到的分数中的方差的一个显著数量，那么其结果就无法概括 
那个方面的各个水平（例如，口头与书面测试〉 • 在表示数据没有 
错误的情况下，我们可以概括该方面的各个水平的程度被表示为 
概括化系数 （generalizability coefficient ) »它通常是通过从合适的 
均值平方中形成一个比例来计算的，这个均值平方则来自于作为 
G - 研究的一部分的 ANOVA 。 从概念上讲，概括化系数是总体分 
数方差与所观察到的分数方差之间的一个比率，并且与信度系数 
相类似 (Alien Yen , 1979)。然而箱要注意的是，如果一个 O 研 
究得出了一个差的概括化系数，该研究的设计指向了引起该问題 
的一个原因，即所检測的那个方面。信度系数仅仅确定误差的数 
量，而并没有把之归结为任何一个特定因素。 

在某些情况中，选择合适的 ANOVA 设计•决定哪些效果与问 
题中的方面相对应以及构建正确的概括化系数都是比较有难度 
的。正如一般的变量分析一样，复合维度、嵌套的、交叉的，以及混 
合的效应会使 G - 研究复杂化（对于 ANOVA 设计的一般讨论，参 
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见 Myers ，1979; 或者 Kirk , 1995)。建议使 G - 研究的设计简单些。 
对于一个特定类型的 G ■研究，在考虑详细解释如何构建合适的 
ANVOA 模型的原始资料的时候，也要谨慎。克若克尔和阿尔吉 
纳 （Crocker & Algina , 1986>描述了几个不同的单方面和两方面 
( one-and two - facet 〉 的概括化研究的合适设计。这些资料也为概 
括化理论提供了一个好的总体介绍。 

总结 


量表的可靠性与它们所包括的題项的可靠性程度一致，其題 
项都有一个共同的潜在变量。阿尔法系数与信度的经典定义对应 
紧密，认为信度是一个量表中由潜在变量的实际分数所引起的方 
差的比例。计算信度的各种方法在特定情境中有不同的效用 。例 
如，如果我们无法得到一个量表的平行版本，计算交替形式的信度 
就不可能 b 在编制一个測量研究或评估一个已经出版的报告的时 
候，那些理解了计算信度的不同方法的优点与缺点的研究者，就能 
更好地得出见多识广的结沦。 

练习’ 

1) 如杲一套题项有比较好的内部一致性，这暗示了 
有关題项与它们的潜在变量之阂的关系的什么信息？ 

2) 在这个练习中，假设以下是一个量表的协方差矩 
阵， Y ， 由三个題项组成， 


* 在整本书中，对于要求一个数字答案的任何鐮习的解答*都会在相应章的注释部 
分中找到，而练习也出现在相应聿中， 

答*是: a . 1.2, i . 0,1. 8( 加起来等于 4. 0), b . 7. 0( 矩阵中所有元素的 和）* 
c . (3/2) X [ l - C 4. 0/7.0>]-0. 64, 
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0.5 

0,4 


0.5 

1.0 

0.6 


0.4 

0.6 

1.8 


a . Xi 、 X 2 * X 3 的方差是多少？ 

b . Y 的方差是多少？ 

c . 量表 Y 的阿尔法系数是多少？ 

3) 用实际的量表特征，讨论一下测试 一重测 信度与 
其他因素之问在哪些方面有混淆。 

4) 交替形式的信度原理是如何遵循平行测试的假 
设的？ 
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效度 

Validity 


内容效 s 
标准一相关效 度 
结构效 《 
及面效度 < validity ) 

姝习 



信度涉及一个变量对一套题项的影响程度，而效度涉及该变 
量是否是题项共变的潜在原因。一旦一个量表具有了信度，那么 
量表分数中的方差就可以归因于某些现象的实际分数，该现象对 
所有题项都有一个因果关系的影响。然而，确定一个量表具有信 
度并不能保证量表编制者感兴趣的变量实际上就是所有题项所共 
享的潜在变量0 —个量表中，对一个特定变量（例如，知觉到的心 
理压力）的测量的充分性问题就是效度问题。 

很多研究者对效度进行了不同的阐释。例如•麦斯克 （ M es - 
sick.1995) 描述了六种类型的效度，其中之一 〈结果 效度）涉及被试 
的分数如何对被试产生影响。虽然麦斯克 （ M ess ick,1995) 对效度 
的评论产生了一些发人深省的问題，但是他的分类系统并没有被 
广泛采用。根据更为传统的解释，效度是从一个量表得以构建的 
方式、预测特定事件的能力，或者与其他结构的测量之间的关系之 
中推断出来的。与这些解释相对应，基本上可以把效度分为三种 
类型： 

1) 内容效度 （content validity) 6 

2) 标准 - 相关效度 （ criterion-related validity) p 

3) 结构效度 （construct validity )， 

在本章中，我将对每一种类型都进行简单地评述，对于效度 
的更为广泛的讨论，包括在标准相关效度以及其他效度指标中的 
方法学和统计学问題的讨论，参见養塞利、坎贝尔和择德克的论述 
( Ghiselli,Campbell & Zedeck ， 1981,第 10章）。如果读者想了解 
关于效度的更为全面的观点，请参看麦斯克 （ Messick, 1995) 的 
著作。 


内容效度 

内容效度涉及题项取样的充分性问题——即是说，一个特定 
的题项集合 (item set ) 对一个内容范畴 （content domaiiO 的反映程 
度。当这个范畴(例如，教给六年级学生的所有词语）得以很好地 
定义时，内容效度是最容易评价的，当 测量诸 如信念、态度或性格 


55 



这样的特性的时候，以及当一个样本题项具有代表性的时候，问題 
就会难 解一些 ，因为很难确切地确定这些潜在題项的范围是什么。 
从理论上讲，当其趣项是从一个大量合适的题项集合中随机选出 
来的一个子集的时候，一个量表就有内容效度。在以上所列举的 
词汇测试这个例子中，这一点非常容易实现 9 所有在学校期间所 
教的词语就会被定义为題项集合。于是就可以抽样出一些子集。 
然而_在诸如对信念的测量这种情况中，我们没有一个方便而合适 
的题项集合。尽管如此，我们编制量表的方法（就如第5章中所提 
供的建议那样，让专家就題项与研究的范畴之间的关联性对题项 
进行 评价) 能够有助干使題项的合适性最大化。例如，如果研究者 
需要编制一个量表来测量预期的结果与想要的结果（例如，在决策 
时，预期医生的决策与期望的结果）之间的差异的话，那么对他或 
她来说，使所有相关的结果都出现在题项中或许是令人满意的。 
为了做到这一点，研究者或许会遨请熟悉这个研究领域的专家来 
评价最初的題项清单，并请他们就那些已经被删除的但实际应该 
被包括进来的内容范畴提出意见 9 那么能够反映这个内容的趣项 
就应该被添加进来。 


标准相 关效度 


为了获得标准-相关效度，顾名思义，就要求一个题项或量表与 
某个标准或“金标准”只有一个理论上的联系。这个联系的理论标 
准是否被理解与标准-相关效度无关。例如，如果我们能够表明探 
寻水源在理论上与确定地下水源的位置有关，那么探寻水源在关 
于成功地钻井挖掘这个标准上就有 效度。 因此，标准-相关效度本 
质上是一个实际的问題而不是一个理论的问题，因为其与理解过 
程无关，而仅仅与对它的预测有关。实际上，标准•相关效度经常被 
称为预 测效度 。 

任何名义的标准•相关效度井不必然暗示着变量之间有一个因 
果关系，即使当对预测的情况和标准进行的排序是明确的时候，也 
是如此。当然，在理论范畴内的预测（例如，预测作为一个假设）， 
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可能与变量中因果关系有关并且可以为一个有用的科学目的所 
利用。 

关于标准•相关效度，值得注意的另外一点是，逻辑上我们正在 
处理多种类型的效度问题，即标准是追随还是领先，或者是同步于 
问题中的测量？因此，除了“预»性效度”以外，并发性效度 （《 m - 
current validity ! 例如，在驾驶测试的同时通过口头询间问题并要 
求被试回答，从而 44 预测”其驾驶技能），或者甚至后预測效度 （ post ， 
dictive vdidity ; 例如，从婴儿发展状态量表中“预测”其出生时的体 
重)或许会或多或少地与标准-相关效度同时 使用。 标准•相关效度 
的最重要的方面，并不是问題中的测量与我们试图推測其分值的 
标准之间的时间关系，而是这两个事件之间的实验上的相关 强度。 
标准-相关效度这个术语比其他暂时不确定的术语要优越，因而也 
更可取。 

标准-相关蚊度与精确性 

在结束标准-相关效度的讨论之前，有必要讲一讲其与精确性 
之间的关系 t 正如盖塞利 （ GhiselH , 19 S 1) 和其苘事所指出的那 
样，当考虑预 ffi 的精确性这个问題时，相关系数一直以来就是标准- 
相关效度的传统指标，但可能不是很 有用。 例如，一个相关系数并 
没有揭露出有多少情况是由一个预涮指标所正确地分类的（虽然 
羞塞利等推述了一些表格，根据预测指标和标准之间的相关大小， 
这些表格提供了一个对这些情况落人不同百分比的类别的比例的 
估计在某些情 R 下，把预测指标与其标准都划分 
为离散的类别，并且对根据它们的预测指标把各种情况划分到正 
确的标准类别之中的“命中率”进行评价，这样可能更为合适 9 例 
如，我们可以把每一个变量划分到“低”与“高 v 的类别里去 * 并且把 
精确性概念化为 IE 确分类的比例（例如，当预测指标的分值与标准 
的分值相对应时的情况 h —个需要重点考虑的问越是，我们在哪 
里分类 a 考虑一下以下情况:假如我们有两个固定状态的标准•例 
如“生病，’与“健康'以及有一个评价工具使研究者对分数进行二 
分处理。评价工具的目的是预测人们对于问题中的生病的反应是 
肯定的还是否定的。因为这个结果是二分的，所以使预*者也是 
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二分的这是有道理的。在分类中有两个可能的错误：量表可能错 
误地把一个实际上生病的人划分为一个健康的人（错误否定），或 
者把一个实际上健康的人划分为生病的人（错误肯定）。当二分会 
影晌这两种错误类型的比例时，沿着评价工具的分数范围画一条 
分界线，在两个端点处，把任何人划分为健康的都会避免错误否定 
(但是会增加错误肯定），而把任何一个人划分为生病的都会避免 
任何错误肯定(但是会增加错误否定）。显然，在这两种极端的情 
况中，评价工具都根本没有任何预测价值。当然，其目标在于寻求 
一个能最少地产生这两种错误中的任何一种的分界_并且因此有 
最高的精确性 9 然而，常常是没有一个理想的分界点，即是说，难 
以找到一个能够完美分类的点，在这种情况下，研究去会有意识 
地最小化其中一个错误。例如，如果生病的状态是非常好的，治疗 
也是有效的，费用也便宜，并且病情是良性的，那么错误否定（导致 
治疗 不足〉 的代价远远地大于错误肯定（导致治疗过度）的代价。 
因此，寻找到一个分界点以便减少错误否定而接受错误肯定似乎 
是合适的 9 另外一方面，如果这个治疗既昂贵又不舒服并且病情 
也比较严重，那么相反的选择或许更有意义 9 

同样，即使一个 预洒暈 表与一个标准之间的相关是理想的，预 
测量表中所取得的分数也不一定是对这个标准的一个估计，记住 
这一点很重要。相关系数对一个变置或两个变量的线形转换是不 
敏感的，两个变量之间的高相关暗示着同一个体在这些变董上获 
得的分数在它们各自的分配中会占据相似的位置 a 例如，如果两 
个題项之间高度相关的话，那么在第一个题项中打分非常高的人 
也可能在第二个题项中打非常高的分。然而，像“非常高”这样的 
題项却是一个相对的而不是绝对的題项，并且没有考虑对这两个 
变量的*量的统一部分 d 把测量的预测部分转换为标准部分对于 
取得一个精确的数字预测来说可能是必要的。这个调节等于剔除 
了一个回归线的倾斜之后再决定合适的截取。无法认识到一个分 
数需要转换,这可能会导致错误的结论，如果预铡量表中与标准 
相同的部分碰巧是被校准过的，那么这种类型的错误或许很可能 
发生。 例如，假设有人编制了以下“驾驶罚单量表”以预獮驾驶员 
在5年内可能会收到多少张 罚单： 


(1) 当我驾驶的时候我超过了限制速度。 

经常 偶尔 少有 从不 

(2) 在多通道公路上，我驾驶在超车道中。 

经常 偶尔 少有 从不 

(3) 我自己判断什么样的驾驶速度是合适的。 

经常 偶尔 少有 从不 

让我们也做一个不切实际的假设，即量表与在5年内所获得 
罚单的数量完全 相关。 这个量表的评分标准为：当一个被试选“经 
常”这个选项时这个题项的值为3,“偶尔”的值为2/‘少有”的值为 
1 ，而“从不”的值为 0。 然后题项的分数被加起来得到一个量表分 
数。 这个分数的理想的标准•相关效度并不意味着在5年内9这个 
分数转变为了 9张罚单9相反，这意味着在这个测量工具上获得 
最高分数的人也是那些在一年之中被观察到的罚单数量最多的 
人。根据有些理论所做的转換（例如 ，0.33 X 分数）会得到实际的 
估计。这种特殊的转换将会为分数是9的驾驶员预测3张罚单。 
如果标准-相关效度很髙，那么可能要计算一个更精确的估价 才行， 
然而，在一个合适的转换之前的标准数值与预测数值之间的相似 
性可能与效度的水平毫无关系。 

结构效度 

结构效度 (Cronbach & Meehl , 1955〉涉及一个变量（例如，某 
个量表中的一个分数）与其他变量之间的实验关系。它表现了其 
所意欲测量的结构与已经建立的其他结构之间的相关程度。因 
此，如果我们根据理论把一些变量看作是与结构 A 和 B 正相关•与 
C 和 D 负相关，并且与 X 和 Y 不相关•那么目的在于测量那个结构 
的量表应该对这些结构的测量有一个类似的关系。换句话说*我 
们的测量应该与 A 和 B 结构的测量正相关，与 C 和 D 的测量负相 
关，并且与 X 和 Y 的测量不相关。对于这些假设关系的描述可以 
参看图 4 .U 
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9 4.1 变置阃的值设关系 


实验上的相关与预测的模式之间的匹配程度，为该测量对其 
意欲测量的变量的反映程度提供了一些证据6 

结构效度与标准-相关效度的区别 

人们经常混淆结构效度和标准-相关效度，因为同样精确的相 
关都能达到其中任何一个效度.它们之间的区别更多地在于研究 
者的目的而不在于所取得的 分值。 例如，流行病学家可能试图确 
定在调査研究中所取得的大量测量结果中的哪些因素与健康状态 
有关。其目的可能仅仅在于识别危险因素，而不考虑（至少最初) 
连接分数和健康状态的潜在的因果机制.这个例子中的效度就是 
这些测量能够预濟健康状态的程度。此外，关系应该是更为理论 
性的和阐释性的。研究者，例如在本书的第1章中所描述的流行 
病学家，可能会认可把压力看作是影响健康状态的一个原因的理 
论模型，因而问题可能就是一个新编制的量表如何测量压力。这 
可以通过理论所认可的方式来评估，即理论上应该如何操作相关 
的量表“行为”来评价压力。如果理论认为压力和健康状态是相关 
的，那么在前一个例子中，被用作预测效度的证据的同一实验联系 
也应该被当作结构效度的证据。 

根据研究者的意图，所谓的知名专家组的确认，也是一种能够 
区分结构效度或标准-相关效度的方式。知名专家组的确认典型地 
表现为，根据量表分数，证明某个测量能够把一个组的成员与另外 
一个组的成员区别开来。这个目的要么是与实验性有关的（例如， 
当能够正确地区别那些属于或不属于某个组的那些成员时，对这 
个组的态度的測量就是有效的），要么是纯预测性的（例如，当某个 
人用一系列看起来不相关的題项来预测工作收入时）。在前一种 
情况中，这应该被看作是一种结构效度，而后者应该看作是一种标 
准 一相关 效度。 
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为了证明结 构故度，相 关应®为多高 

我们无法找到分界点来确定结构效度6认识到两个测量可能 
不仅仅共享有结构相似性，这是很重要的6尤其是，在测量结构的 
方式中的相似性可能对分数中的共变（即结构相似性的自 变量〉 进 
行解释的时候 6 例如，以多点记分系统(例如分值从1到 100) 来记 
分的两个变量与一个双极变量相比，如果所有其他情况都一样的 
话,它们之间会有更高的相关。这是由测量方法的结构相似性所 
造成的人为产物。同样，由于程序的相似性 ，由 渊试者所收集的一 
种类型的数据与以同样的方式所收集的其他数据有某种程度的相 
关。即是说，两个变量之间的某些共变可能是由于测量相似性而 
不是结构相似性造成的 8 这一事实有助于回答以下问題，即有没 
有必要考虑结构效度的相关程度。变量至少应该证明除了共同的 
方法造成的变化以外的共变。 

多特征-多方法矩阵 ( multitraU-multimethod matrix ) 

坎贝尔和费斯克 (Campbell & Fiske ，1959) 编制了一个叫作多 
特征-多方法矩阵的程序，这对于测量结构效度非常有用。这个程 
序用一种以上的方法来测量一种以上的结构，所以我们可以取得 
一个“完全交叉”的方法来构建测量的矩阵。例如，假设设计了一 
个研究，在这个研究中每一次使用两个不同的测量程序分别对焦 
虑、抑郁和鞋子的尺码进行两次测量（注意，如果同时测量两个不 
同的被试样本，这会对这个方法的基本原理产生什么 影响人 每一 
个结构的测量都应该包括两种方法 、一 个形象化类比量表（一根线 
条,被试在其上面做个记号以表示他们所拥有的特征的数量，这些 
特征包括焦虑、压抑或者鞋子的 尺码〉 以及测试者在与每个被试15 
分钟的交互活动之后的评分。然后，我们就可以构建一个在这些 
测量中所取得的相关的矩阵 * 如表 t U 
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表 4. 1 对多特征-多方法矩阵中相关的解释 





) i ： TM 代表同样的特征和方法（信度 >; T 代表同样的特征，不同的方法; 
M 代表同徉的方法，不同的特征和 S 分别指焦虑、抑部和鞋子 


的尺码 I 下标 v 和 i 捎形象化类别和询问方夂。 


在表中并没有表现出相关特征与无关特征之间的区别。因为 
反映同一特征<结构）和同一方法的题项应该既共享方法上的变 
化，也共孪结构上的变化，所以我们可能会假设这些题项的相关程 
度很商 a 同一特征但是不同方法的相关程度其次。如果是这样, 
这就表明结构共变比方法共变的相关 要高； 换句话说，我们的测 M 
更多地是受我们所要测 i 的内容的影响而不是受测盘方法的影 
响。相反，当用不同的程序来测毡它们的时候，鞋子的尺码与这两 
个结构中的任何一个没有任何理由会存在相关 • 因此，这些相关 
不会与零有显著方差。对于不确定的但在理论上有联系的结构 • 
例如压抑和焦虑，我们会假设某种结构共变。它们之间的相关会 
潜在地为建立结构效度提供很多信息。例如，如果我们的抑郁量 
表都是构建的比较好的了，而我们的焦虑量表目前正在编制，我们 
就可以评价在相似的和不同的测董程序情况下由概念相似性所引 
起的共变的总量。从理论上来讲，即使当通过不同的方法来测量 
的时候•焦虑和抑郁都应该是充分相关的。如果这被证明为是事 
实的话，它就可以被用作我们新编制的焦虑量表的结构效度的证 
明。更特别地，这些相关应该是聚焦效度 （convergent validity) 的 
表现，即在理论上与结构相关的浏量之间的相似性的证明。理想 
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地焦虑与抑郁之间的相关应该小于两个抑郁测量之间或者两个焦 
虑测量之间的相关，但是它们都会比抑郁测量和鞋子尺码测董之 
间的相关要大。不管测量方法的相似性或非相似性，焦虑测量与 
鞋子尺码的测量之间无显著的相关，这一证明也同样重要，因为 
这就是差别效度 （discriminant validity ，有时也叫作发散效度， di - 
vergeni validity ) 的证明，即没有联系的结构的测量之间没有相关。 
当以同样的方式来测量时，如果鞋子尺码与焦虑之间有显著相关, 
这表明方法本身解释了大量的与不同结构的相同测量有关的方差 
量(以及共变量）。 

麦特克尔 （ Mi tC helM 979) 观察到，在为多特征-多方法矩阵收 
集数据中所使用的方法包括两方面的 O 研究（见第3 章）， 即特征 
和方法。多特征-多方法矩阵使我们把方差来源确定为“方法”和 
“特征”(或者“结构” h 因此，关于结构效度我们可以采用更精确 
的表述，因为这使我们把真正反映结构相似性的共变（并且因此与 
结构效度有关)与使用类似的测量程序而产生的人为的共变（因而 
与结构效度不相关）区别开来。当我们简单地考察两个测量之间 
的单一相关时，这种区别就不可能。 

表面效度 (face validity) 


很多人使用表面效度这个术语来描述那些对他们表而上要测 
量的内容进行评估的一套題项。按照我的观点，由于以下几个原 
因，这种用法是不合适的： 

首先，关于一个量表对其所测量的内容看起来像什么进行评 
价的假设可能是错误的。例如，艾德尔和本亚弥尼 （Wler Beny - 
a mini ，1997) 检验了 27个大的、实施得很好的流行病学研究来精确 
地确定涉及了一个什么样的共同題项。该題项要求人们把他们的 
总体健康状况评价为“糟糕'“一般”、“好”，或者是“非常好”。很 
多人都会判断出这个单一题项的测量确实评价了它所说的：被试 
的健康6艾德尔和本亚弥尼注意到，这个题项是对大量的健康结 
果的极好预测指标。在对不同的研究中的方差进行解释方面•它 
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总是超过了其他变量 6 与我们的讨论更有关的是，它初看起来似 
乎与健康状态不相关。然而，模型常常包括这个单一的題项并且 
也建立了关于健康状态的测暈。典型地，单一題项健康自我评价 
和其他的健康状态测量在同一个模型中都是重要的预测指标即 
是说,它们不共享来自其中一个的预测作用的足够方差•而排斥来 
自另外一个的独立的预测作用。相反 .单一 題项健康自我评价似 
乎与心理变量共享有更大程度的方差。这些发现表明，正如其表 
而上所表现的那样，这个被大量使用的单一题项不是健康状态的 
一个有效的指标 e 对于这个題项•看起来好象测量了我们想要的 
东西，但是对于支持效度来讲是不充分的。 

以表而效度为基础来评价一个测量的另外一个问題是，有时 
候正在测量的变量的重要性并不明显 9 例如，一个打算测量人们 
的撤谎程度（例如 ，使 他们自己“看起来很好”）的工具，由于很难使 
被试明白其意固，从而达不到其想要的结果 # 我们能够因为它看 
起来并不是在测暈撤谎 * 面得出结论认为其是无效的吗？因此，这 
个例子表明，根据看起来无法知道它实际是什么•我们并不能得出 
它没有效度这一结论。 

表面效度的最后一个问题是，量表的测量目的对谁来说应该 
是明显的.这还不淸楚6是被试吗？如果一个医生问一个病人他 
或她是否比平常更口渴的话.那么这个问题的效度依赖于病人知 
道为什么要问这个问题吗？显然不是。是那个编制这个工具的人 
应该知道其目的吗？很难想象，对于董表的编制者来说•还不明白 
量表内容和所研究的变量之间的联系（或许，关于纯粹实验的、非 
理论的标准一相关效度除外）。如果这个意义上的表面效度被采 
用的话，实质上所有的量表都可以被判断为有效的9最后，从表面 
上来看 * 应该知道量表的测验目的人是一个更为广泛的科学团体 
吗？这种理解很可能产生有冲突的结论。在有些专家眼里，一个 
看起来像是测董了一个变量的题项，在另外一个相同资历的专家 
看来却測量了另外一个变量。而情况往往是这样的，那些根据一 
个董表似乎有或没有表面效度就认为其有或没有效度的人，只是 
根据自己个人的知觉来作出判断和认可。即是说，如果一个暈表 
的目的和表面对他们来说看起来都相似，他们就倾向于认为其有 
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表面效度；否则，他们就认为其没有表面效 度 9 这对于任何效度的 
宣布来说，其基础都是很脆弱的。 

根据不同的环境，一个量表的目的从其表面明显地表现出来， 
可能有奸处也有坏处。正如我们将在下一章中要看到的那样，埋 
项编制过程经常需要明确地指向研究中的变量的陈述。这往往不 
是一件坏事。同时，我也并不是在说明测量工具总体上都应该这 
样来构建，以致它们的目的从其表面上看并不明显，相反，我想说 
明的是，无论是不是这样，结果都与效度几乎无关或根本无关。 


练习 


1) 举一个例子来说明，一个量表和一个行为之间的 
闾等的相关如何表现结构效度或者是标准 一相关 效度。 
并对以下两个问题都进行解释 ：①计 算相关的动机，以及 
②对这个相关的解释会随着研究者 正试图 评价的效度类 
型而变化9 

2) 假设研究者有关于两个结构：自信和社会适应的 
书面测量，研究者也有关于这两个结构的面试分数。在 
一个多特征一多方法矩阵中如何使用这些数据来证明 t 
教据收集的方法对所取得的结果有一个不期望的强烈 
影响？ 
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量表编制指南 

Guidelines in Scale Dcvdopmerm 


步 S 1: 请镫地决定你要® 置什么 
步猓2:建 立一个 趣项库 
步《3:决定测量的樣式 
步* 4:让专京 i 乎价 笟初的 趟项库 
步》5:考 虑确认 题项的 包含性 
步 h 在一个试•测祥本中測试颳项 

.步*7:求》项的值 
步: JM : 优化供表长度 



到目前为止，所呈现的材料都比较抽象。现在我们来看看怎 
么能应用这些知识。本章提供了一套具体的指导方针供研究者编 
制置表使用。 


步骤1:清楚地决定你要测量什么 


这一点看起来很简单。而且很多研究者认为，对于他们想要 
测量的内容早已有了一个清晰的想法，但是实际上却发现他们的 
想法比他们曾经认为的要含糊。通常，这种认识发生在为編写題 
项和收集数据进行了大量的工作之后——此时的改变，比在编写 
程序一开始时就意识到时成本要大得多。量表应该以理论为基 
础，还是应该探寻新的明智的方向？侧量应该有多具体才好？某 
个现象的某些方面被强调时，其他方面应该被忽略吗？ 

有肋于清晰化的理论 

正如在第〗章中所讨论的那样，清晰地思考量表的内容需要 
淸晰地考虑所测量的结构.虽然在编制和验证一个量表中会涉及 
很多技术方面的问理，但是我们不应该忽略与测量的现象相关联 
的理论的重要性。在本书中关注的量表类型，是为了测量那些无 
法直接观察到的难以捉摸的现象。因为没有一个切实的标准让我 
们可以依此实施量表，有一些清晰的理论作为指导就很重要。同 
时，大量的现象必须进行再认，以防止量表的内容在无意中漂移到 
无关的领域中去了. 

理论指导对于清晰化有很大的帮助。在编制本书中所讨论的 
量表时，也要考虑相关的社会科学理论.如果发现，现有的理论对 
量表编制者并没有任何指导的话，他们可能霈要寻求一个新的明 
智的方向。然而，这个决定应该是一个以见多识广为基础，并且只 
有在对与目前的测置问埋有关的合适的理论进行综述之后才做出 
决定 a 即使没有可以利用的理论来指导研究者，在编制量表之前， 
也必须制定出自己的概念性方案。从本质上讲，必须至少确定一 
种试验性的理论模型来指导量表的编制 0 这可能就如清楚地阐述 
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所要测量的现象一样简单 # 最好还应该包括一个关于新的量表结 
构与现有现象及其搡作之间如何相关的播述。 

有助于清 晰化的 特异性 

所测量的结枸的特异性或普遑性水平也很重要。在社会科学 
中有一个共识，即当变量与特异性水平相匹配的时候，它们之间将 
彼此高度相关(关于这点的讨论，参见 Ajzen & Fishbein, 1980)。 
有些时候一个量表的目的与非常特定的行为或结构有关，而另一 
些时候《需要寻求一个较普遍和一般的测量。 

下面就举例来说明一下在特异性方面有区别的測量6考虑一 
下控制点 (locus of control，LQC) 结构6控制点是一个广泛使用的 
概念，指个体对影螭他们取得重要成就的入物和事物（事件）的知 
觉。这个结构可以被广泛用作对在很多情境中的眘適行为的模式 
进行解 释的一种方法，或者狭义地讲,用来预测个体在一个特定的 
情境中将会如何反应 9 关于影响 的来* 也被广泛地或具体地加以 
播述，例如，与这些理解一致，若特尔 （Rotter,1966) 的内部-外部 
(I-E) 董表就是关注一个非常眢遍的水平.其范围是从个人支配到 
由外界因素支配的一个单一维度，这也是这个暈表的基础；并且其 
埋項所强调的结果也是普遑性的，例如个体的成功 0 支配的外部 
来*也被广义地加以推述 • 以下就是若特尔的 I-E 量表中的一个 
外部昧述 t “世界是由少数掌权的人所支配的，并且几乎没有哪一 
个小人钧能栘支配它，”勒》逊 （Levens 0 n，lS73> 廉制了一个复合 
维度的 LOC 量表 ，它涉及三个控制点 ：自己 ，其 他有权力的人，以 
及机会或命运。然而，她所关注的结果仍然是普追的，以下是勒 
温逊的“掌权的其他人”这一分量表中的一个样本题项：“我感觉好 
像发生在我生活中的一切，都是由其他有权利的人所决定的。”沃 
斯頓和德维利斯 (Wallston and DeVellU, 1978) 使用勒里逊的三个 
控制点编 M 了多维徤康控制点量表 （mulUdimensional health locus 
of control, MHLC) ，其结果特指健康，例如避免疾病或生病。以 
下是 MHLC 中“其他有权利的人”这个分量表中的一个样本 埋项: 
“与我的医生经常保持接触，对我来说是避免疾病的最好方式，沃 
斯顿、斯腾以及史密斯 <Wallston，Stein，ami Smith，1994) 后 来编制 
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了一个其结果更加特异性的多维健康控劊点量表 （ MHLC 版本 
C )， 它包括一系列“模板”题项 5 通过把每一个模板匾项中的疾病 
或紊乱的名称替换成“我的状况”，该量表使研究者可以确定任何 
感兴趣的健康问题。以下是 MHLC 版本 C 中“其他有权利的人 w 
这一分量表中的一个样本题项，它或许会用在糖尿病的研究中： 
“如果我经常去看我的医生，我的糖尿病出问题的机会就会更少。” 

这些日益增多的更为具体化的 LOC 量表中的每一个都有潜 
在的用途。哪一个最有用，这取决于结果或控制的普遑性与所要 
探讨的特定问题之间的相关水平。例如，如果一个多维健康控制 
点量表的目的在于预测一个普遍的行为，或者会与其他在一个普 
磨的水 平上来评价结构的变量相比较的话，那么若特尔的量表或 
许就是最好的选择，因为它也是普遍化的。另外一方面，如果研究 
者的兴趣在于具体地预测关于其他人的影鸸的信念如何影响某些 
健康行为的话，那么沃斯顿、斯腾以及史密斯 （1994) 量表可能更为 
恰当，因为特异性的水平与这个研究 问题相 匹配。在其纊制过程 
中，就量表的目的性与功能而言，这些量表中的每一个都有一个清 
哳的框架来进行预脚，该預测决定了邮种水平的特异性是合适的。 
关键在于量表编制者应当把这种思考当作一个积极的决定，而不 
仅仅是产生一套題项并且在犯了错误之后才看清楚它是什么 
样子 e 

关干控制点的例子证明了与结果（例如，这个世界是如何运作 
的以及糖尿病问题）和控制点（例如，眘適的外部因素与命运以及 
掌权的其他人)有关的特异性。然而,暈表的特异性会随着大量的 
维度而变化,包括内容范畴(例如，焦虑与更广泛的心理调节）、背 
景(例如，特意编制来调査某个具体工作环境的问卷），以及人物 
(例如，儿童与成人或者军人与大学 生）。 

清 晰地知 道一个量表将包括哪 些内容 


量表编制者应该问问他们自己，他们想要測量的结构是否与 
其他结构有 区别。 正如先前所讲的那样，根据暈表所应用的情境， 
量表可以被编制为相对广泛的或狭窄的 • 而对于它们所包括的结 
构，也是如此。测量普逋的焦虑是相当正统的，这种測量既应当 
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评估考试焦虑也应当评估社会焦虑 6 如果它与量表编制者或使用 
者的目标相匹配，那就更好。然而，如果我们只是对焦虑的某个特 
定类型感兴®，那么这个童表应当排除其他的成分。那种“横漂” 
到一个相关的结构中去的题项（例如，当所感兴趣的主厘是考试焦 
虑时，涉及了社会焦虑）是有问题的。 

有些时候，明显地相似的 S 项会涉及完全不同的结构。在这 
种倩况下，虽然量表的目的可能在于测量一个现象，但是它也会对 
其他现象很敏感。例如，某些抑郁量表，如流行病学研究中心 （ cen ¬ 
ter for epidemiological studies depression » CES ~ D 〉 抑郁量表 （ Rad - 
loff ，1977> •有一些涉及了抑郁的生理方面的題项（例如，与被试的 
“启动”能力有关〉。在某些关于健康状况的情境中，例如关节炎， 
这些理项或许会把疾病的某些方面误认为是抑郁的症状（对于这 
一点的具体讨论，参见 Blalock ， DeVellis , Brown , &. Wallston , 
1989)。 如果量表被用于某些特定群体（例如®性病）或者和其他 
一些生理结构一起使用（例如朦想病）的话，一个新的抑郁量表的 
编制者应当选择邂免生理方面的題项。当然，如果是有其他用途 
的话，那么包括生理題项就很重要，例如当调査的范围尤其与具有 
负面影响的生理因素有关时。 


步骤2:建立一个题项库 


一旦一个量表的目的被淸晰地阐述明白了，编制者就会迫不 
及待地准备开始构建该工具。第一步就是要生成一个大的題项 
库，作为量表的最终候选理项。 

选择反殃董表 S 的的屬項 

里然 ，这些題项应当根据心目中的特定渕置目标来选择或者 
编写，关于量表的实际意图的描述会引导这个过程。回想一下， 
我曾经 提绨过 ，组成一个相似的量表的所有理项应当反映作为其 
基础的潜在变量 # 就題项而言•每一个题項都被认为是一个对潜 
在变量的强度的“测试' 因此•每个题项的内容基本上都应当反 
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映问題中的结构。复合題项比单个理项所构成的惻试更可靠，但 
是每一个题项仍然必须对潜在变量的实际分数敏感. 

从理论上来讲 ，一 套好的题项是从与问题中的结构有关的广 
泛的题项中随机选择而来的。題项集合被假设为无限的大，这就 
很大程度上排除了任何确切地识别它以及随机袖取題项的误差。 
然而,这种意识应当被放在心上。在编写新的題项，正如经常发生 
的情况一样，你应该创造性地思考一下你所寻求*量的结构6那 
么为了达到该结构，对一个題项进行措辞的方式是什么？ 虽然这 
些®项不应该在所定义的结构的界限以外去冒险，但是应当在这 
些范围之内寻找所有題项类型的可能性。一个量表的特征是由组 
成该量表的题项所决定的。如果它们是对你所一直持有的概念的 
一个较差的反映并且很难表达清楚的话，那么该量表就不会准确 
地把握所要测量的结构的实质. 

題项所 共同具有的“东西”确实是一个结构并且不仅仅是一个 
类别，这一点也很重要。再次回想一下，我们的量表模型把題项看 
作是作为其原因的共同潜在变量的明显证明。与一个共同的结构 
相关的《项的分数是由该结构的实际分数所决定的。然而，正如 
在第1章中所提到的那样，仅仅因为理项与一个共同的类别相关， 
这并不保证它们有相同的潜在变量。如态度、依 从障碍 ，或者生活 
事件这些术语，经常定义的是结构的类别而非结构本身。举例来 
说，最终将会成为一个多维度量表的基础的题项库不应当仅仅关 
注态度，还应该关注特定的态度，例如关于惩罚毒品上癟者的态 
度。如果你愿意,可以预想一下这个人的特征，即能造成对与惩罚 
该毒品上瘾者有关的超项做出反应的潜在变暈。想象一个对普 a 
的态度进行解释的特征是一个相当大的挑战*对于所引用的其他 
例子情 況也是 一样。依从障碍在很多种类型中都比较典型 9 每一 
种类型（例如，发现症状的恐惧、对洽疗成本的关注，对疼痛的预 
料、与治疗机构的距离、不会受伤害的感知）都可能代表一个潜在 
变董。在一些潜在变量中可能存在着非同寻常的相关。然而*这 
些障碍中的每一个都是一个单独的结构。因此，“障碍”这个术语 
描述了结构的一个类别而不是与单个的潜在变量相关的一个单独 
的结构。当它们是一个共同的潜在变暈的表现时，测量同一类别 
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中的不同结构的題项(例如，不会受伤害的感知与对治疗成本的关 
注)就应该不会与題项以同样的方式共同变化6 

冗 余 


在量表编制过程的这一个阶段，如果其他一切都相同的话，最 
好是多包含一些題项。在编制一个量表时，冗余并不是一件坏事。 
实际上，那些指导我们的量表编制工作的理论模型就是以冗余为 
基础的。在讨论第3章中的斯皮尔 曼一布 朗预测公式时，我指出， 
如果所有其他条件都相等的话，那么信度作为題项的数量的一个 
函数而变化。通过编制一套以不同方式来反映某个现象的題项, 
我们才能试图把握问題中的这一现象。通过使用复合以及表面上 
冗余的題项，当它们的无关特质被删除掉以后，与这些题项都相同 
的内容就可以在整个题项中求和。如果没有冗余，以上操作就不 
可能。有用的冗余从属于结构，而不是题项的偁然性方面。在一 
个題项中仅仅把“一个”改为“这个”肯定都会带给你与题项的重要 
内容有关的冗余，但是它也可能是其他你所想要改变的东西的冗 
余，例如基本的语法结构以及词语选择9另外一方面，两个题项， 
例如“我会尽全力来保证我孩子的成功”与“如果它有助于我的孩 
子取得成功，再大的牺牲都不为过”，可能会是相当有用的冗余，因 
为它们以某种不同的方式表达了一个相似的思想。 

与最后的量表相比，在你的理项库中，可以容忍有更多的冗 
余，并且某些冗余甚至在以后会更令人满意 # 例如，如果你有这样 
一个题项“就我的观点看来，宠物爰好者都很善良”,那么再包括另 
外一个表述“据我估计，宠物爱好者都很善良”的题项，就明显会更 
好一点。这些®项清楚地涉及了与宠物主人的身份有关的相似的 
句子，并且它们也有一个共同的语法结构并且使用几乎一样的词 
汇。然而，这样的一个题项“我认为喜欢宠物的那些人是善良的”， 
在与第 一个® 项的实质内容有关的冗余性方面会表现得很好—— 
没有价值不高的冗余。然而在暈表编制的这一较早阶段，即使是 
这个例子中的这两个最初的题项的极度冗余也是可以接受的*虽 
然只有一个会出现在最后的量表中。如果考虑两个题项，即使当 
它们像以上这些一样相似时，可能会为量表编制者提供一个机会 
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来比较它们，并且表达了一个偏好（例如，使用“观点”一词就似乎 
比“估计”一词要显得不那么自命不凡 h 如果只考虑了这两个题 
项中的一个，那么这个机会就可能会失去 9 

题項的数量 

对那些应该被包括进一个初步的题项库里的题项的数量进行 
详细地说明是不可能的。但是可以肯定地说，在最初的题项库中 
的题项，应该比你所计划的最终的量表中的题项要多得多。回忆 
一下，我们讲过，内部一致性信度是题项彼此之间（并且因此与潜 
在变量之间）的相关强度以及在一个量表中你所拥有的题项的数 
量的一个函数 9 由于题项之间的相关的本质在量表编制的该阶段 
还不清楚，有大量的题项是避免较差的内部一致性的一种保险形 
式，在你的题项库中的题项越多，在选择适合你的目的的题项方 
面就会越烦琐。在编制量表时，以一个其数量为最终量表的®项 
的 3 倍或4倍的题项库开始，这往往是非常平常的事情。因此 ，一 
个有10个题项的量表可能来自一个有40个题项的题项库。如果 
一个特定内容范畴的题项特别难以编写，或者如果实验数据表明 
无需大量的题项来取得好的内部一致性，那么最初的题项库比最 
终的量表大一倍就可以了。 

总之，题项库越大越好。然而也有可能编制了一个太大的题 
项库，以致无法在所研究的问题的任何一个单一场合应用。如果 
题项库超乎寻常地大，研究者可以根据优先标准 刪除一 些题项，例 
如缺乏清晰性、不恰当，或者与其他题项之间的不合意的相似性。 

开始编写题項 

开始编写题项往往是题项生成过程中最难的部分。让我来推 
述一下我是怎么开始这一过 程的. 在这一点上，我对题项的质量 
比对仅仅表达相关的意思的关注要少。我常常以一个陈述开始， 
即对我想要測量的结构的一个解释 9 例如，如果我对编制一个关 
于对商业信息的自我感受性的量表感兴趣的话，我会以这样的陈 
述开始“我容易受商业信息影响”。然后我会写出其他一些陈述, 
这些陈述有共同的意思但是在某些方回又有所不同*我的下一句 
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陈述可能会是，"商业信息对我有很多影响”，我会以这种方式继 
续，但是在这些除述上没有施加任何实质上的质量标准 9 在这一 
早期阶段，我的目标仅仅是确定我期望的測量工具的中心裉念得 
以表述的各种方式 b 当我在写的时候，我会寻求表达相似意思的 
其他方式 9 例如，我会在接下来的一系列句子中，用“我在电视或 
杂志广告上所看到的东西”来代替“商业信息' 我发现，快速而不 
加评论地写是很有用的。在写完了我预期包括在最终的量表中的 
题项的3倍或4倍题项时，我就检査一遑我所写的题项.现在就到 
了评价的时候了。可以根据把掴中心意思的程度以及表达的清晰 
性来检査®项。接下来的阶段，在从原始的陈述列表中进行选择 
或对之进行修改的过程中，推述一下那些应该避免的特征或者应 
该合并的具体题项的特征。 

好的题項和差的篇項的特点 

把造成一个题项所有好的或者坏的情況列出来是不可能的。 
内容范畴显然对题项的质量有重要的意义。然而，把握几个特点 
可以有效地把好的题项与差的题项分开，这些特点中的大多数都 
与清晰性有关 9 正如在第1章所指出的那样，一个好的题项应该 
是不含糰的。那些使被试进退两难的问题应该被删除。 

量表编制者应该避免编写太长的题项，因为长度往往会增加 
复杂性面降低清晰性，然而为了简洁而牺牲题项的意思是不可取 
的，如果一个正在修改的句子对于转达一个题项的意图是关键 
的，那么就应把它包括进来。然而，要避免不必要的华酣辞藻，总 
之，侓这样的®项“我经常在阐述论点方面有问题”会比一个不必 
要的较长的题项要好，例如“公平地讲，很多时候我似乎都有一个 
问题，就是让其他人理解我的论点。” 

在选择和纗制®项时，另外一个需要考虑的问®是，所编写的 
题 项的阅读难度水平。有大量的方法（例如 *Dale & Chail , 1948 5 
Fry ，1977) 来评估文章段落的等级水平，包括量表的题项。这些方 
法都把较长的词汇和句子等同于较高的阅读水平。阅读大部分地 
方报纸可能需要一个六级阅读水平。 

弗瑞 ( Fry , 1977) 推绘了量化阅读水平的几个步骤，首先是选 
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择一个课本范例，该范例以一个句子的第一个单词开头并刚好只 
有100个单词(对于那些只有少数几个题项的量表，你或许必须选 
择100这个方便的数字，并以此作为后续步骤的基础）。其次，计 
算在这个课本范例中的完整句子和单个音节的数量6这些数值被 
用作图表的记分点，该图表为这100个单词的段落的不同句子组 
合和音节数提供了等级等价物。这个图表明，对于一个阅读水平 
为第五级的句子来说，每个句子中的单词的平均数量和音节的平 
均数分别是14和18。在第六个等级水平的一个句子中，平均有15 
或16个单词以及总共20个音节，•在第七个等级水平的一个句子 
中，有大约18个单词和24个音节。有较多的较长的单词的较短的 
句子，与具有较少的长单词的长句子相比，会得出一个相同的等级 
水平，例如,一个有9个单词和13个音节的句子（例如，有44%的 
多音节单词）以及一个有19个单词和22个音节的句子(例如，不到 
大约14的多音节单词)都被归类为第六个等级的阅读水平。对很 
多用于普遍人群的 测量工 具来说，把阅读水平确定在第五和第七 
个等级之间可能是一个合适的目标。例如，多维健康控制点量表 
的題项，是在第五到第七等级的阅读水平上编写的9在这个阅读 
水平上的一个典型的题项是影响我健康的大多数东西都是偶然 
发生的 ” （Most things that affect my health happen to me by acci - 
denti Wallston et al . ,1978〉。其有 9 个单词和 15 个音节•把它放 
在了第六个等级水平上。 

弗瑞 (1977) 阐述道，在评价阅读难度时，应该考虑语义和句法 
因素。因为短的单词似乎更普適，并且短的句子在句法上似乎也 
要简单些，所以该程序是其他更复杂的难度评价方法的一个可接 
受的替代方法。然而，当使用其他标准来编写題项和选择題项时， 
在应用阅读水平方法时我们必须使用一定的常识$仅仅包含短单 
词的一些简洁的句子并不是基本的。例如，对有些受过学校教育 
的人来说，“避开头盔的嘲笑 ” (Eschew casque scorn ) ，可能会比“戴 
上你的头盔 ” （Wear your helmet ) 更令他们感到迷感，尽管它们都 
有3个单词和4个音节。另外一个应该避免的潜在的混淆因素是 
多重否定 t “我不赞成对那些反核武器的组织停止资助的合作”就 
比“我赞成继续对那些宣传禁止核武器的群体提供私人的支持”要 
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令人困惑得多（注意观察，这两个陈述可能表达了在同一问题上的 
不同立场。例如，后者可能隐含着对问題中的群体提供私人支持 
而非公共支持 h 

所谓的“双简枪 ” （double barreled )® 项也应该被避免，这些 
题项传达了两个或更多的意思，因此对这 种匾项 的认可，有可能指 
两者之一，也有可能指二者。“我支持公民权利，因为歧视是对上 
帝的一种犯罪”就是一个双筒枪题项的例子。如果一个人支持公 
民权利的原因在于其他，而不是在于对神的蔑视的话（例如•因为 
它是对人性的一种罪行），那么他或她将怎么回答？ 一个否定的回 
笞或许会不正确地传达一个缺乏对公民权利的支持，而一个肯定 
的回答可能不正确地把动机归结为被试的支持。 

量表编制者应该避免的另外一个问题是模棱两可的代词。 
“谋杀犯和强奸犯不应该从政治家那里寻求庇护，因为他们是地球 
的浮澄 ” （Murderers and rapists should not seek pardons from pol ¬ 
iticians because they are the scum of the earth ) ，只要不考虑代调 
的指代，这句话可能表达了某些人的观点（然而，量表编制者通常 
更清楚一个題項的意义是什么八这个句子应当受到双重批判。 
除了其模糊的代词以外，它也是双筒的。位置不当的修饰语也产 
生与模棱两可的指代相似的模楢性:“我们众议院中的议员应该努 
力工作来为卖淫方法 ”（Our representatives should work diiigenty 
legalize prostitution in the House of Representation ) 就是这种修 
饰语的一个例子。考虑一下这两个之间在意思上的差别:“所有的 
游民都应该被给予精神分裂症的测评 ” （AU vagrants should be 
given a schizophrenic assessment ) 测评”与“所有的游民都应该被 
给予精神分裂症测评 ’’（All vagrants should be given a schizophre ¬ 
nia assessment ) g 

单个的单词并不是暧昧性的惟一来源，整个句子可能有不止 
一个意思 9 我曾经看到过一个关于青少年性行为的调査，该调査 
包含一个父母的教育评价。把调査的上下文作为一个整体来看， 
其措辞却非常不幸 8 “你的母亲在学校里走了多远 ?，How far did 
your mother go in school ) 研究者始终没有认识到这个陈述的无关 
意义，直到在一次学术会议上做报告时它被一个专家组所窃笑时 
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才发现，我怀疑这个题项也 被大量 的被试讥笑了 9 还不清楚它将 
怎么 样影响 青少年对问卷的后续部分的反应。 

措辞积极和消极的鱺琪 

很多量表编制者选择编写措辞消极的题顼，即表示低水平的 
或者兴趣结构缺失的题项*以及更眘遍的代表该结构存在的措辞 
积极的题项。之所以这样的目的在于得出一套题项，既有被认可 
时反应出的高水平潜在变量的®项，也有不被认可时反应出的髙 
水平变量的题项。例如，罗森伯格自我评价量表 ( RSE , Rosenberg ， 
1 S 65) 包括表示高自我评价的题项（例如，“我感觉我有很多好的品 
质”)和低自我评价題项（例如，“我确实不时感到很无用”）。在同 
一个量表中对題项的措辞既有积极的也有消极的，其目的往往是 
为了避免默许、断言，或者一致性傰见。这些内部变化的 S 项使被 
试的反应倾向与题项一致，而不管其内容。例如，如果一个量表由 
表示高水平的自我评价的题项所组成的话，那么默许性傰见会导 
致其反应模式似乎表示非常高的自我评价。另外一方面，如果量 
表是由数量相等的积极措辞和消极措辞的题项所组成的，那么默 
许性偏见和极度的自我评价可以通过反应模式而相互区别。一个 
“中性者”既可以认可表示高自我评价的鼴项也可以认可表示低自 
我评价的题项，而一个真正有高自我评价的人会始终认可高自我 
评价匾项并且消极地认可低自我评价釅项。 

不幸的是，既包括积极的题项也包括消极的题项可能会付出 
—定代价，鼴项极性的逆转可能会对被试造成混淆，尤其是当他 
们在完成一个长的问卷时。在这种情况下，不管其极性，被试可能 
会对表达他们对一个陈述的强烈同意，与表达他们对所测量的属 
性(例如，自我评价）的强度之间的差别感劲困惑，作为一个应用 
社会科学的研究者，我曾经看过很多以相反的方向措辞但是编写 
得很差的超项的例子 。 例如，在德维利斯和卡拉罕 （DeVellis &. 
Callahan , 1993) 的著作中，我的同事和我描述了一个更简短的、更 
聚焦的术语来替代“风湿病学态度素引 "（rheumatology attitude 
mdex , —个很不幸的名称，因为该工具并没有评价态度并且也不是 
—个素引我们从以实验标准为基础的原姶的较长版本中选择 
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B 项，并且以四个表示对疾病的消极反应的题项、一个表示很好地 
应对这种疾病的能力的题项结尾 9 目的在于，使用者应该对这个 
“应对”题项反向打分，以便所有的題项都表达了一种无助感。更 
近一些的研究，克尔瑞、卡拉罕和德维利斯 （ Currey，Callahan 
DeVeltis , 20 C 2> 检验了那个惟一的以积极方向措辞的題项，发现 
该題项的正确率总是很差。当该題项被增加了一个否定词“不”来 
改变其分值，以便和其他的题项一致时，其正确率就显著地提 
高了。 

我们怀疑，虽然很多被试认识到了最初的翅项的不同分值，但 
是其他人并不一定意识到。这就会导致一部分人会认为最初的题 
项与其他®项有积极的相关，而另外一部分却认为这种相关是消 
极的 9 结果，对于作为一个整体的该例子来说，该題项与其他四个 
题项之间的相关将会显著地 被减少 ，并且因此产生我们所观察到 
的在最初的题项(反向评价)上的不令人潇意的分数。以社团为基 
础的测试样本的个人经验告诉我，以相反方向撸辞的理项有百害 
而无一利。 


小结 

一个题项库应该是一个量表得以形成的丰富资源。它应当包 
含大量的与研究兴趣有关的 題項。 与内容有关的冗余是一笔资 
产，而不是一笔债务。它是内部一致性信度的基础，反过来信度又 
是效度的基础，题项不应该涉及“一捶子交易”，因为它会使被试 
不可能认可题项的一部分而不认可与该部分不一致的其他部分。 
不管在通项库中是否都包括了积极地和消极地搰辞的题项，它们 
的措辞都应当遵循已建立的语法规则。这将有助于避免以上所讨 
论的导致模糊性的一些因素 9 


步骤3:决定测量的模式 


有着大量的测量模式可供选择。研究者应该提早考虑测量的 
模式是什么。这个步骤应该与題项的编写同时进行，以便二者的 
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一致。例如，如果最终所选择的反应形式是由单个词语理项所组 
成的一个题项集，那么生成一个长的由陈述句组成的題项集就可 
能是浪费时间。此外，相比而言，预设的理论模型会与某些反应形 
式更一致，总之，由可以连续记分以及求和，从而获得一个分数的 
量表，与本章所提出的理论倾向非常一致 9 然而，在本节中，我将 
讨论一些普遍的测董模式，这些模式以第2章中所讨论的理论模 
型所隐含的形式为基础， 


瑟斯顿测量 （thurstone scaling ) 


对于编制影响理项形式和反应选择的量表，存在有大量的常 
规性策略，一种方法就是瑟斯顿测量，这里有一个类比可以帮助阐 
明瑟斯顿測量是如何工作的。设计一把转动的叉子并且以一种特 
定的頻率振动。如果你敲击它，它就会以那种频率振动，并且产生 
一种特定的音调9相反，如果你把这把叉子放在接近与这把转动 
的叉子所产生的频率一样的音调源的地方，这把叉子也将开始振 
动，那么，从某种意义上说，一把转动的叉子就是一个"频率检测 
器”。它会因为其共振頻率的声波的出现而振动，而当出现其他频 
率时却保持不动，假想一下，一系列振动的叉子排成一行，以致当 
一把叉子从左到右移动时，这些振动的叉子就会相应地产生逐渐 
增高的频率声音。在这些振动的叉子的频率范围之内，这种排列 
方式就可以用来确定一个音调的频率。换句话说，你可以通过观 
察当该音调出现时，哪一把叉子会振动，从而确定该音调的频率。 
瑟斯顿测量就是以这样的工作方式来编制的。量表的编制者试图 
编制一些对问®中的特征的不同水平作出不同反应的題项。当某 
个特定®项的“音调”与被试所具有的特征水平相匹配时，题项将 
发出“信号”来表示这种一致性。通常，“信号”由一个对与该特征 
的合适水平“和调’’的系列题项的肯定反应和一个对所有其他題项 
的否定反应所组成。典型地，通过把大量的題项放人与结构强度 
或力度的等距对应的题项集中，从而做出判断来检测该调谐 （例 
如，决定每个题项所对应的结构的水平）。 

这真是一个一流的想法。例如，可以编制出与某个特征的不 
同强度相对应 的题项 ，可以留一些距离来表示相等的间隔，并且可 
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以格式化来对应赞同一反对反应选择，研究者可以把这些题项给 
被试，然后检査他们的反应来确定哪个题项引发了一致性。因为 
可以预先校准这些題项对某个现象的特定水平的敏感性，所以这 
种一致性可以确定该被试所拥有的特征的数量，选择题项来表示 
题项间的相等间隔会得到高度满意的测量特征，因为分数可以服 
从以间距测量为基础的数学程序， 

以下是用来测量父母对其孩子的教育和职业成就期望的瑟斯 
顿量表的一部 分1 

(1) 对于我的孩子来说，取得成功 同意_ 

是对作为一个父母的我所付 不同意_ 

出的努力面报的惟一方式 9 

(2) 上一所好的大学并且找到一 is ) 意_ 

个好的工作非常重要，但是 不同意 

对我的孩子的幸福却不是至 

关重要的， 

(3) 幸福与取得教育或物质目标 同意_ 

无关。 不同意_ 

(4) 传统价值现中有关成功的诱 意_ 

惑力是对真正幸福的一个 不同意_ 

障碍。 


正如农纳利 （ Nun na lly ,1978) 所指出的那样，编制一个真正的 
瑟斯顿量表比描述一个瑟斯顿霣表要困难得多。找到与所研究的 
现象的特定水平相一致地“共振’’的题项十分困难*该方法所遇到 
的实际问理经常超过了其优越性——除非研究者有一个迫不得已 
的原因，从而需要它所提供的校准类型。虽然瑟斯顿董表是一个 
令人感兴趣的并且有时也是合适的方法，但是在以后的章节中我 
将不会再对它做讨论。然而，请注意，当釆用某种不同的方法来测 
暈它们的时候，在第7章中所讨论的以项目反应理论为基础的那 
些方法，拥有瑟斯頓量表的很多成分。 
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加特曼 測 量 （gutttnan scaling ) 


加特曼量表是由一系列题项所组成的，这些题项涉及一个特 
征的逐渐升高的不同水平，因此，被试应该认可大量相近的题项， 
直到在某一个关键点，这些越项所涉及的特征的总量超过了被试 
所拥有的特征总量为止，剩余的所有题项都不会被认可。有些纯 
描述性数据适合加特曼量表9例如*很多面试问题可能会这样问， 
“你抽烟吗?”“你每天抽烟超过10支吗?”“你每天抽烟超过一盒 
吗?”等等。就这个例子而言，认可加特曼量表中的任何特定题项 
就意味着对其前面所有睡项的认同。被试在该特征上的水平可以 
通过对最髙一个题项的赞同反应来确定。请注意，尽管瑟斯顿量 
表和加特曼量表都是由等级化的題项所组成的，但是前者的焦点 
在于一个单独的肯定反应，而从肯定反应过渡到否定反应这一点 
则是后者的焦点。对于先前所例举的父母的期望量表，其加特曼 
版本可能像 这样： 


(1) 对于我的孩子来说，取得成功 同意 

是对作为一个父母的我所付 不同意 

出的努力回报的惟一方式。 

(2) 上一所好的大学并且找到一 同意 

个好的工作对我的孩子的幸 不同意 

福是非常重要的。 

(3) 如果一个人已经取得了他或 同意 

她的教育或物质目标，幸福 不同意 

就更可能实现， 

U ) 传统价值观中，关于成功的 ^ 意 

诱惑力并不是对真正的幸福 不同意 

的一个障碍 b 


加特曼董表对于客观的信息或情境处理得非常好，因为积极 
地对一个等级的一个水平作出反应就意味着满足了该等级的所有 
较低水平的标准，这在逻辑上是必要的。当所研究的问题并不具 
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体时，情况就变得比较悲 观。 例如，在我们所假设的父母的期望量 
表这一例子中，在每个个体之间的等级可能不统一。尽管每天抽 
20支香烟总是表明要比抽10支多，但是在父母的期望量表这一例 
子中，对题项3和4的反应可能并不总是与加特曼量表的等级模式 
相一致。例如 ，一 个人可能会同意題项3,但是不同意题项4。一般 
而言，赞同題项3就意味着赞同睡项4,但是如果一个被试把成功 
看作是一个复杂的因素，该因素同时作为对幸福的一个帮助或一 
个障碍，那么就会得到一个非典型的反应模式。 

与瑟斯顿量表一样，加特曼量表无疑有其自身的价值与地位， 
但是它们的应用性看起来非常有限 * 对于这两种方法来说，其劣 
势和难度都将超过它们的优势。记住，目前所讨论的铡量理论并 
不总是可以应用于以上类型的量表，这是非常重要的。当然 ，对谱 
在变置和每个題项之间的相同强度的因果关系的假设或许不能应 
用于瑟斯頓量表或加特曼量表，农纳利和博恩斯腾 （NurmaUy & 
Bem S tein ，1994) 简要地播述了作为这些量表的基础的一些概念上 
的模型 s 对于尤其适合等级化翅项的测量情境，在第7章中将要 
讨论的以 IRT 为基础的模型，是一个潜在的合适选择，尽管实施这 
些方法非常烦琐。 


具有相同权重的薄項的量表 


先前所讨论的测量模型最适合由这样的理项所组成的暈表， 
即对研究的现象来说是更加或较不相等的“指标”的题项——也就 
是说，它们是更加平行的或更不平行的（但是并不必要像平行测试 
模型那样严格意义上的平 行〉。 它们是某个共同现象的非理想的 
指标，该现象可以通过筒单的合计而被复合为一个可以接受的可 
靠的 量表， 

这种类型量表一个引人注目的特征是,每个单独的題项都能 
够有大量的反应选择模式。这使得量表编制者在编制一个最适合 
特定目的的量表时，有大量的纬度可以选择。下面将要讨论与反 
应形式有关的某些一般的问題，同时也将要讨论一些有代表性的 
反应模 式的优点和要求。 
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反应类别的最适宜数量是多少 


大多数量表题项包括两个部分:题干和一系列反应选项 9 例 
如，每个题项的题干可能是表达一个观点的一个不同的陈述句，而 
与每个题干相伴随的反应选项 W 能是一系列表示对该陈述句的赞 
同程度的措述 t 现在，让我们集中讨论一下反应选项——尤其是， 
那些可供被试所使用的选择的数量，一些题项反应模式提供给被 
试一个无限的或大量的选择，而其他题项反应模式则限制可能的 
反应《例如,假设有一个类似温度计一样的量表用来渕量愤怒，从 
温度计的底部“根本就没有愤怒”校准到其顶部“完全的，无法控制 
的愤怒”。被试应该被呈示一系列的情境播述 * 每个描述都伴随一 
个温度计量表复印图片，并要求他们通过把温度计的某些部位涂 
上阴影来表示该情境激发了多大程度的愤怒^实质上这种方法允 
许对愤怒的连续剽量.另外一种方法可能会要求被试用从1到 
IDO 的数宇来表示每个情境所激发的愤怒程度。这就提供了大量 
的离敖的反应。此外，该形式对以把反应选择限制在少数几个选 
项上,例如“没有”、“有一点”、“中等量”和“很多 '或 者限制在“愤 
怒”与“不愤怒”之间的一个简单的二元选择。 

这些不同方法的相对优势是 什么？ 一个量表的令人满意的质 
量是可变性。如果它不变化的话，一个量表就不能共变。如果一 
个量表在潜在的特征之中无法区别方差的话 ，那么 它与其他量表 
的相关将会受到限制并且它的应用也会受到限制 9 增加可变性的 
机会的一种方法是，拥有大量的量表超项。另外一种方法是题项 
内有大量的反应选项。例如，如果研究环境把研究者限制在与愤 
怒有关的两个问题上，最好在播述被试的愤怒水平中给他们以纬 
度。假设研究涉及在工作场合禁止吸烟的政策。让祓们进一步假 
设研究者想考察该政策与愤怒之间的关系。如果研究者有两个开 
放式问题(例如，“当你被限制吸烟的时候，你会感到有多愤怒? ”以 
及“当 你遇到别人在工作场合吸烟的时候，你会感到有多愤怒? 
与二元选择形式相比，被试可能会从这个反应形式中获得更多有 
用的信息，因为这给了他们很多反应等级 . 例如，一个从0到100 
的量表在对这些情境的反应中可能会出现广泛的差异，并且为双 
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题项的量表产生了好的可变 性。 另一方面，如果条件允许,研究组 
有关于吸烟和愤怒的50个问题，通过增加题项来取得一个量表分 
数时，简单的“愤怒”与“不愤怒—指示可能会产生足够的可变性。 
事实上，如杲被试在这50个问题的每个上都面临着更多的选择， 
那么这可能使他们感到疲劳或厌烦，从面降低他们的反应信度。 

与反应选项的数量相关的另外一个话题是，被试有意义地识 
别的能力。有代表性的被试能够对这些选项作出多好的区分？这 
明显取决于所要测量的问题。几乎很少有东西能够被评价为50 
个离散的类别。当被呈现如此多选项时，很多被试只使用那些与5 
或10的倍数相对应的选项，从而有效地把选择的数量减少到5个。 
35和37这样的差别，可能无法真正反应所激量现象中的差别，虽 
然量表的方差可能会增长，但是它可能是由正在增长的攒在现象 
所引起的随机(例如，误差）部分而不是系统部分.这当然不会带 
来任何好处。 

有些时候，被七有意义地在反应选项间进行区别的能力将取 
决于那些选项的特定措辞或者位置 a 要求一个被试对一些模楢数 
量的播述进行区别，例如“几个'“少数几个”以及“很多'会产生 
很多问题，有时候这种模楢性可以通过反应选项在页面上的安排 
而减少《当他们被呈现一个明显的连续统一体时，被试似乎总是 
能理解主试的意图。因此这样的一个序列，如< 

根多 一些 少敦几个 杈少教 没有 

可能暗示着“一些”要比“少数几个”要多。然而，如果有可能找到 
一个没有模糊性的形容词来排除，被试很据一个连续统一体的位 
置面 做的假设的话，那就更好。有时候，较少的反应选项比模榭性 
的选项可能要 好。 因此 ，例如，在 以上例子中把 “一些 ”或者 “少数 
几个”麵除从而只有 四个选 項而不是五个，这可能会 更好，最糟糕 
的 情况是 把模楢的词语和模楢 的位置 混杂在一起。看看以下这个 
例子： 


S4 



非常有帮助 
有某些蒂助 


不是非常有帮助 
根本没有帮助 


像“某些”和“不是非常”这样的词语在最好的情境下也是很难 
区分的。然而，如上面所列举的例子那样，如此排列这些选项会使 
情况变得更糟糕_如果被试先从第一列往下看，然后再从第二列 
往下看，“某些”似乎表示比“不是非常”的值要高。但是，如果被试 
从左到右从第一行看到第二行的话，沿着该连续统一体的两个推 
述的隐含等级就与前面刚刚相反。由于既有语胄上的模糊性又有 
空间排列上的模糊性•个体会賦予这两个表示中等值的选项以不 
同的意义，因此其信度就会受到影响 6 

此外，还有一个问题需要考虑，那就是研究者对每个题项进行 
记分的能力与意愿。如果先前所推述的温度计方法是被用来量化 
愤怒反应的话，那么研究者真正打算企图对每个反应进行一个精 
确的记分吗？共同的领域能够被测量到四分之一英寸那么精确 
吗？四分之一厘米呢？四分之一毫米呢？如果从量表中提取出来 
的只有一些粗糙的数据，即低、中、高三等，那么在要求这祥一个精 
确的反应中所需要注意的是什么？ 

至少还有一个问题与反应选项的数量有关。假设每个理项有 
—些离散反应，那么这个反应数量应该是偶数还是奇数？再次，这 
个问题取决于问题的类型、反应选项的类型，以及研究者的目的， 
如果反应选项是双极的，用一个极端来表示另外一个的反面（例 
如，一个强的积极态度与一个强的消极态度），那么奇数的反应选 
项允许模棱两可（例如，“既赞成也不赞成 ，或 不确定（例如，“不肯 
定” h 偶数通常不会 9 奇数的反应选项意昧着存在有一个中心的 
“中立”点(例如，既不是积极的赞同也不是消极的赞同）.相反，偁 
数的反应选项迫使被试在一个极端或另外一个极端的方向中至少 
要做出一个弱的许可（作为最不极端的反应，例如，在中等的积极 
赞同或中等的消极赞同之间做一个迫选）。任何一种形式都有其 
存在的必要性和相对的优势。如果感觉到被试将选择一个中立的 
反应来作为避免一个选择的方式的话，那么研究者或许会排除模 
棱两可的选项。例如，在关于社会比较性选择的研究中，研究者或 
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许会想迫使被试对关于一个更优越的人或较不优越的人的信息表 
示一种偏好6考虑一下这两种不同的形式，其中第一种是被用来 
研究患有风湿病的病人之中的社会性比较的 （DeVellis et al . ， 
1990) t 


(1>你愿意听到关于以下哪个人的信息： 

a . 那些患有风濃病且比你的病情更严重的病人 

b . 郅呰患有风 S 病且比你的病请较缓和妁病人 
(2) 你愿意听到关于以下哪个人的 信息： 

a . 那些患有风湿病且比你的病情更严重的病人 

b . 那呰患有风湿病且和你的病情一样糟糕的病人 

c . 那些患有风湿病且比你的病情较缓和的病人 


侓 (2) b 那样的一个中立选项可能会引发不必要的含混 9 有时 
候，一个中立点或许也是必要的.在关于评价两項冒险行为中（例 
如，厌烦或愤怒)人们更喜欢哪个的一项研究中 ，一 个中点可能很 
关键。在关于一个安全而沉闷的活动与一个兴奋而危险的活动之 
间的选择中，研究者或许应该变化损害的几率和程度。在关于对 
更兴奋的活动进行冒险的选项中个被试所选择的非常接近含 
混的那一点，就可以被看作是冒险行为的一个指标。 

以下是关于活动 A 和活动 B 播述，请在活动 B 的选项中圈画 
出你认为适合你的选项，从而表示你对以下所列举的选项中对活 
动 A 或活动 B 的偏好： 


活动 A :0 B 读一本铁计书（没有 受严重 伤害的 角机） 

(1) 活动 B : 采坐一架计算机化的小型飞机飞行（非常小的 
受严重伤害的机会） 

强我地 t 等*度地 没有 强烈地 t 等*度地 
喜欢 A 喜欢 A 褊妤喜欢 B 喜欢 B 

<2)活动 B : 乘坐一架开放式座* 的小轚 飞机飞行<小的受 
严重伤害的机会） 
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a 洩地中等 《 度地没有强剋地 t 等程度地 
喜欢 A 喜欢 A 偏妤喜欢 B 喜欢 B 
(3) 活动 B : 从一架 fc 有支禕性降落伞的飞机上跳伞（中等 
受严重伤害的机会） 

强烈地中等钱度地没有强赳地中等程度地 
喜欢 A 喜欢 A 偏妤喜欢 B 喜欢 B 
(4〉活动 B : 从一架配无支律性降落伞的飞机上跳伞（受严 
重伤害的机会很多） 

袋烈地 中等程度地没有强洩地中等程度地 
喜欢 A 喜欢 A 偏好喜欢 B 喜欢 B 
(5) 活动 B : 从一架 fc 有支禕性降落伞的飞机上跳伞，并且 
尝试在一个0标上着 *( 总是肯定会严重受伤） 

强对地中等程度地没有强烈边中等程度地 
喜欢 A 喜欢 A 偏好喜欢 B 喜欢 B 


除幵这种方法的优点或信度，它会明确地要求反应选项包括 
一个中点 9 

反应形式的具体类型 


量表® 项有各种令人头晕眼花的形式。然而，有几个方法可 
以表示那些被广泛使用 的題項 ，并且在大量的应用实践中被证明 
是成功的。以下将讨论其中一些方法。 

利宪尔特量表 （likert scale) 


最一般的题项形式之一是利克尔特量表。当使用利克尔特量 
表时，題项以一 个陈述 句的方式呈现，后面跟着反应选项，表示对 
该陈述的赞同或认可程度的变化(实际上，前面那个选择冒险活动 
的例子就使用了利克尔特量表的反应形式）。根据正在研究的现 
象和研究者的目的 ，银随 每个陈述的反应选项的«量要么是奇数 
要么是偶数。对于该陈述来说，反应选项的揞辞应该使其都有大 
致相等的间距。即是说，任何两个相邻的反应选项之间在赞同方 
面的差别应该大致与任何其他相邻的反应选项对之间的差别相 
同。一般的惯例是包括六个可能的选项 ，强 烈地反对”、“中等程 
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度地反对”、“稍微反对 ”、 “稍微赞同'“中等程度地费同”、 “ 强烈地 
赞同' 这些选项就形成了一个从强烈地反对到强烈地赞同的连 
续体。也可以加人一个中立的中点。对于这个中点 * 一般的选择 
包括“既不反对也不赞同”以及“反对与赞同的程度一样”。我们抽 
一点时间来讨论一下这两个中点的同等性。第一个暗示着无动于 
衷的缺乏兴趑，而后者表明对于赞同与反对都有一个强烈而相等 
的兴趣6最好是使大多数被试不是注意语言的微妙，而是仅仅把 
在中心范围的任何合理的反应选项都看作是一个与其精确的措辞 
无关的中点， 

利克尔特量表在测量观点、信念和态度的工具中被广泛使用。 
对于这些陈述来说，当被用在利克尔特量表中时，恰当的（虽然不 
是特别地)强度经常是非常有用的。假设，在反应选项的选择中表 
示了适度的观念6例如,这些陈述“医生普遑地忽略病人的说话内 
容”、“有时，医生并没有给予他们本应该给予病人那么多的注意” 
以及“偶尔，医生可能会忘记或者疏忽病人所吿诉他们的情 况”分 
别表达了关于医生对病人的谈话的忽略的强烈的、中等的和弱的 
观点。对于利克尔特量表来说，哪个是最好的？当然，根本上最精 
确地反应了观点之间的实际差别的那个就是最好的。在最初的題 
项库中，在选择以何等强度对题项措辞时，研究者可以从对这样几 
个问題的回答中受益 ，对于 所研究的问題，有不同数量或强度的 
态度的人们可能会怎么反应？”在以上所举的三个例子中，研究者 
可能会得出结论认为最后一个问题可能表明了人们较强的赞同， 
这些人的观点遵循从肯定到否定的一个连续体。如果该观点被证 
明是正确的，那么第三个陈述就无法很好地区别有强烈的否定观 
点与中等程度的否定观点的人们。 

总之，当用利克尔特量表中时，过于适度的陈述可能会引出太 
多的赞同 6 很多人会强烈地赞同像这样的陈述“市民的安全和保 
障非常重要”，人们可能会强烈地赞同这样一个陈述（例如，选择一 
个极端的反应选项)但却没有持有一个极端的观点 9 当然，反过来 
也是如此。瘅些没有持有最极端的观点的人可能会发现他们不赞 
同一个极端强烈的藤述（例如，“极力抓捕和惩罚罪犯比保护个人 
的权利更重要”） 9 在这两个（极度中庸或极度极端）陈述中，基于 


88 



两个原因，前者可能存有更大的问题。第一，我们经常偏爱书写一 
些不会冒犯我们的被试的 陈述。 避免冒犯或许是一个好主意•然 
而，它会使我们偏好那些几乎每个人都可能赞同的題项 ■ 对太中 
庸 的題项 保持瞥惕的另外一个原因是，它们可能会表示信念或观 
点的缺乏。前一段中所举的关于那个不专心的医生的题项中的第 
三个题项，并不表示一个赞同的态度，也不表示一个不赞同的态 
度，像这样的题项可能与研究目的很不相符，因为我们经常感兴 
趣的是某种现象的出现而不是其缺乏。 

总之，一个好的利克尔特题项应该以清楚的术语来陈述研究 
中的观点、态度、信念或其他结构6对于这种类型的量表，超越关 
于这些结构的从弱到强的选项范围，既没有必要也不合适。反应 
选项提供了划分等级的机会， 

以下就是在利克尔特反应形式中的題项的两个例子： 


( D 锻炼是健康生活方式的一个基本成分。 

1 2 3 4 5 6 

强烈地中等程度地稍撖稍微中等程度地强烈地 
反对 反对 反对赞同 赞同 赞同 

(2) 禁毒战役应读 享有® 家级的优先权。 

1 2 3 

完全 大部分 同等地 

正确 正确 正确与不正确 

语义微分 （semantic differential ) 

语义微分测量方法主要是与奥斯古德和他的同事 （Osgood & 
Tannenbaam , 1995) 的关于态度的研究相联系的《 —般，语义微分 
在指一个或多个刺激中使用。例如，在关于态度的情况中，刺激可 
能就是像汽车销售人员这样的一 组人， 在一系列配对的形容词之 
后跟随着对目标剌激的确定》每个配对代表着一个连续体的相反 
的两端，用形容词来定义(例如，诚实与不诚实）。就如以下例子所 
示，在组成反应选项的形容词之间有很多条线： 


4 

大部分 

不正确 


5 

完全 

不正确 
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汽车销售人负 


诚实_ _ _ _ _ _ _不诫实 
安静_ _ _ _ _ _ _嘈杂 

本质上，每一条线 (7 和9是通常所使用的线条的数量）代表由 
形容词所定义的连续体中的一个点9被试在其中一支线条上做记 
号以表示连续体上的一个点，从而表示剌激的特征。例如，如果某 
个人认为汽车销售人员极其不诚实，他或她可齙会选择最靠近那 
个形容匍的那条线。无论是极端的还是中庸的观点都能够通过选 
择一条线并做上记号来表示。在完成与第一个形容词配对有关的 
剌激的等级划分之后，这个人就接着完成其他由线条所分离的形 
容词配对。 

—个人所选择的形容词既可以是双极的也可以是单极的，这 
总是取决于量表所要测量的研究问題的逻 辑性。 双极形容词每一 
个都表达了相反的态度的出现，例如友好与敌意。单极形容词配 
对表示一个单独的态度的出现和缺乏，例如友好与不友好《 

像利克尔特量表一样，语义镦分反应形式能眵与在本书中的 
前一些章节中所出现的理论模型高度一致。能够编写涉及相同的 
潜在变暈的题项 集合。 例如，使用俅“值得信赖/不值得信赖”、“公 
平/不公平”以及“诚实/不诚实”这样的词语来作为端点的题项，可 
以加剰前面一个例子的第一个陈述中，从而组成一个铡量“诚实” 
的量表。这样的量表能够被概念化为一套題项，这些题项享有一 
个共同的潜在变量 （诚 实）并且与第2章中所讨论的假设相一致。 
与之相对应，对于題项的评价，每个“诚实”題项的分数应该被求 
和，并且像在稍后一节中所要讨论的那样进行分析。 

形象化类比 {visual analog) 

另外一个在某些方面与语义*分相类似的题项形式是形象化 
类比暈表。这种反应形式向被试呈现一根连续的线条，该线条连 
接表示一个连续体的相反两端的一对描述 • 指导完成该題项的被 
试在线上做一个标记来表示他们的观点、体验、信念或者其他任何 
被測量的东西 a 形象化类比量表，正如其名称中的“类比”这个词 
语所表明的那样，是一个连续量表。在评价董表里所标记的点的 
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分数方面的差异好坏，是由研究者决定的 。 连续的反应形式的一 
些优点和缺点在先前已经讨论过了>那个时候还没有出现的一个 
額外的问題是，当其与这个连续体的评价有关时，在对物理空间的 
理解中可能存在差异> 对不同的人来讲，沿着这条线在特定的点 
所做的记号可能并不意味着相同的意义，甚至当所有的被试在这 
条线上所标注的终点都是相同的时候，也是如此。考虑一下这样 
一个关于疼痛的形象化类比量表《 

根本就_我经历过的 

没有疼痛 最严重的疼痛 


在该量表中间的一个反应表示的是一半的时间上的疼痛*还 
是一半的程度上的连续疼痛•或者完全是其他的东西？关于疼痛 
的测量，部分问题在于疼痛可以在很多维度上被评价，包括頻率、 
程度以及持久性6 惻量 一个人所经历的最严重的疼痛可能会被曲 
解 & 不同个体间的对比也由于以上问題而变得复杂，不同的人可 
能经历的“最严重的疼痛”的水平不一样。当然•这些问題中的有 
一些存在于这个例子所使用的研究现象之中——疼痛（关于疼痛 
的测量的完整讨论，参见 Keefe , 2000〉，而本质上并不存在于量表 
之中9然而，形象化类比量表中分值的异质性分配问题也会由于 
其他现象的影响而存在 

形象化类比量表的一个主要优点在于，它们非常敏感 (Mayeiw 
1978)。这能够使它们在一些干预事件之前和之后对研究现象进 
行测量非常有用，例如产生一个相对弱的影响的千预或实验处理。 
例如，在实验处理过程中的一个温和的责备对自信的5点测量不 
会产生一个转换。然而，向在形象化类比量表中的分值较低的一 
个突然而系统的转换，可能会发生在这个假设实验中的“责备”情 
境中的人身上。当对同一个体间的而不是不同个体间的随着时间 
的变化而发生的改变进行测量时，这种敏感性可能更优越 （ Mayer , 
1978) 0事实可能的确如此，因为在前一种情况中，并不存在由于 
个体间的外来差别所增加的 误差。 

当过了一段时间以后，用它们来进行重复测试时，形象化类比 
量表的另外一个优点在于，被试很难或者不可能精确地认可他们 
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过去的反应。比如前讲过的那个关于自信题项的例子，该题项是 
一个俅利克尔特置表这样的多项反应，被试要记住他们所做的在 
这五个选项中的选择，或许会并不困难。然而，除非被试在形象化 
类比量表中所选择的是两个端点，否则就很难准确地回想出在一 
条没有特征的线上所标记的点在哪里，如果研究者 注意襄 被试可 
能会产生前后一致的反应，这可能会是有利的 • 或许，在呈现一个 
实验干预之后，以相同方式所刺瀲的被试会选择与先前的刺激一 
样的反应，形象化类比形式基本上排除了这种可能性。如果对于 
实验被试来讲，后处理反应总是带有一定的偏向性（例如，通常以 
相同的方向），而对于控制组来讲，前处理反应是随机地偏向性的 
话，那么选择形象化类比量表就会有助于检测这个被其他方法所 
疏漏了的微妙的现象> 

形象化类比量表被经常用作单一題项测量> 这在排除任何内 
部一致性的检测方面有相当大的缺点.对于一个单一厘项的测 
量，信度只能够通过在第3章所描述的測试-重翔方法或者通过与 
已经建立了心理测量特性的同一特征的测量进行对比来测定。前 
一种方法会遭受前面所讨论的测试-重剷评估问题，特别是不可能 
区别测量过程中的不稳定性和所测量现象的不稳定性。后一种方 
法实际上是一个结构效度比较。然而，因为信度是效度的一个必 
要条件，如果效度是显而易见的话，那么我们就可以推测出信度。 
但是，一个更好的策略可能是编制出复合的形象化类比题项，以便 
能够测定到内部一致性 。 

数字化反应形式与基本的神经加工 

最近发表在《自然》上的由若瑙、普瑞弗特斯和伍密利塔（201- 
zi^Priflis Ummt a ,2 G 02) 所进行的一项研究表明，某些反应选择 
可能与大脑怎样加工数字信息有关6根据这些作者的观点，连续 
排列的数字，正如在典型的利克尔特量表中那样，不仅以它们的数 
字值来表示数董而且还以它们的位置来表示数量。他们认为，数 
字的形象化线条不但是一个方便的表达形式，而且与基本的神经 
加工相对应，他们现察到，那些有各种大脑损坏从而损伤了视野 
中的空间知觉的人们，在筒单的、形象化呈现的数学问题中会系统 
地犯错误。视觉上的不正常与所犯的错误类型高度相关<*对于无 
法觉察左边视野的个体，要求当其在一条线上排列的两个值之间 
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标记一个中点时,他们经常错误地标记“在右边”。例如*当被问到 
所标记的“3”和“9”这两个点之间的中点是什么时，就会错误地偏 
向右边(例如，偏向较高的值 h 把量表从高到低反过来，还是继续 
产生向右偏向（现在，偏向较低的 值〉。 当同样的任务以非形象化 
的形式呈现时——例如，通过询问3和9的平均值是多少——这种 
模式就没有出现。实际上，当不以视觉方式呈现时,这些个体在数 
学运算中没有表现出任何缺陷。没有视觉异常的控制组被试并没 
有表现出那些有大脑损坏的被试所表现出的偏向模式。作者得出 
结论认为，他们的工作表明了，“心理数字线不仅仅是一个隐喻的 
有利证据”并且“以空间术语来思考数字（已经由伟大的数学家们 
所报道了）可能会更有效，因为它是以数字的实际神经表征为基础 
的 ” (Zorzi et al . ，2002, p . 138)。虽然，这个研究本身不可能保证 
严格的结论,但是它产生了一个非常令人感兴趣的假设，即评价一 
条直线上的数字串可能与基本的涉及数量评估的神经机制相对 
应。如果实际情况就是这样的话，那么作为一排数字而呈现的反 
应选项可能会有特别的价值9 

双极 ( binary ) 选项 

另外一个普逋的反应形式是，让被试在每个題项的双极选项 
中做一个选择。虽然具有相等权重的題项也可能有双极反应选 
项，但是早先的瑟斯顿量表和加特曼量表中的例子使用了双极选 
项(“赞同”与“反对，，）。例如，要求被试梭对一个題项清单上他们 
认为适合他们自己的所有形容词。或者，要求他们对他们在特定 
情境中所经历的一个情绪反应題项集做出“是”或“否”的回答。在 
这两种情况中，那些反映了有一个共同的潜在变量的題项的选项 
(例如，像代表抑郁的“悲伤”、“不幸福”以及“忧郁”这样的形容 
词），应该被合并为那个结构的一个分数9 

双极反应的一个主要缺点是，每一个題项只能有最小的可变 
性。类似地，每一对题项也只能有共变的两个水平中的一个:赞同 
或反对。回想一下第3章中，我们讲过，由多个权重相等的題项所 
组成的一个量表的方差完全等于各个題项的协方差矩阵中的所有 
元素的总和。对于双极题项，由于在可能的方差和协方差中的限 
制，每一个題项都对那个总和有着珍贵的贡献。如果題项是双极 
的,其实际的结果就会是，需要更多的題项来获得相同程度的量表 
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方差。然而,双极題项通常非常容易回答9因此，对于任何 ffi 项来 
讲，所给予被试的负担就比较轻。例如，大多数人能够很快决定某 
些形容词是否是对他们自己的合适描述。结果，被试经常愿意完 
成双极題项，而不愿意完成那些需要集中精力来辨析的題项 。因 
此，两个双极题项形式可能使研究者通过聚合更多 ffi 项的信息来 
获得量表分数中 的足够 方差， 

题項时 间结构 (item time frame ) 

关于量表的适当形式的另外一个话題是，具体化的或者隐含 
的时间结构。在这套书的另外一卷中，克里和麦克格瑞斯 （Kelly 
McGrath ，198 S ) 已经讨论了考虑不同侧量的即时特征的重要 
性。有些量表会涉及时间结构，暗示着一个广泛的时间观点。例 
如，控制点量表经常包含那些暗示着对于因果关系的一个持久信 
念的題项。像“如果我采取正确的行动的话，我就能够保持健康” 
CWallston et aL , 1978) 这样的题项，就假设这种信念是相对稳定 
的。作为一个对结果的控制的一般而不是特殊的期望，这与控制 
点理论特征相一致（虽然，在后来的控制点信念的侧量中，有一个 

向更持殊化的转变-例如， DeVeUis ， Revicki » Lurie , Runyan , 

& Bristol , 1985〉，而另外一些量表鲥评价相对短暂的现象。例 
如,抑郁可能会随着时间而变化，并且測量它的量表也必须得承认 
这一点 （ Mayer , 1978), 例如，被广泛使用的流行病研究中心抑郁 
量表 ( Radloff ，1977) 就使用了一个研究范式，该范式要求被试指 
出在过去的一周他们体验各种情绪状态的频率。一些量表，例如 
焦虑量表（例如， Spielberger ， Gorsuch , &- Lushene ， 1970)，被编 
制出不同的形式来评价相对短暂的状态或相对持久的特性 （ Zuck - 
erman , 1983)。研究者应该主动地而不是被动地选择一个量表的 
时间结构。对于这个过程，有一个理论指导是非常重要的 # 所研 
究的现象是个体个性的基本而持久的方面，还是可能依赖于改变 
中的环境？量表的目的在于检測发生在一个短暂的时间结构中的 
突然变化(例如，在现看了一场悲剧电影之后增加了消极的影响） 
还是发生在一生中的变化(例如，随着年龄的增长在政治上逐渐倾 
向保守)？ 

总之，題项的形式，包括反应选项和指导，应该反映研究中的 
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潜在变量的本质以及该量表的使用意图 g 


步骤4:让专家评价最初的题项库 


到目前为止，我们讨论了三个 话超； 清楚地表达所要研究的现 
象的必要性，生成一个合适的题项库的必要性，以及为这些题项选 
择一个恰当的反应形式的必要性。量表编制过程的下一步将是请 
一些这个领域的专家来评价题项库。这个评论的目的在于使该量 
表的内容效度（见第4章)最大化。 

首先，让专家评价你的題项库，这能够确认你对现象的定义， 
或者相反,证明你的定义无效。你可以请你的专家组（例如，广泛 
地从事研究问题中的结构或相关现象 工作的 同事)来评价，并请他 
们对每一个题项与你所要測量的东西之间的相关程度做出评估。 
如果你正在编制一个由各个分量表所组成的量表来测量多个结构 
的话，这点尤其有用。如果你在编制你的題项之中非常仔细的话， 
那么专家在确定哪个题项与哪个结构之间相对应时，麻烦似乎就 
会很少。本质上，你对每一个题项所测量的东西的看法鱿是你的 
假设，而专家的反应只是确证数据或者驳斥数据。即使所有题项 
的目的都在于考察一个单独的特征或者结构，专家的评价也是非 
常有用的。如果专家对一个题项增加了一些你本没有打算要包括 
的内容，在完成最终量表时.被试也会这样做9 

要获得題项相关的评价，通常要把你对所研究的结构的操作 
性定义提供给专家组9然后请求他们就这些题项与你所定义的结 
构之间的相关性对每个题项进行评价。对于每个题项，这就有必 
要把相关程度评价为高、中、低。此外，你可以遨请专家对他们所 
认为合适的每个题项进行评价。这使得他们的工作要更难一些， 
但是可以获得扱好的信息。例如，关于为什么有些题项很模糊的 
一些中肯而有见地的评价，会给你一个新的观点来审视你准备如 
何来澜量这个结构。 

评价者也能够评价題项的清晰性与简洁性。一个题项的内容 
或许与所测量的结构有关，但是其措辞可能有问題。这关系到题 
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项的信度，因为一个模糊或者要么不清楚的题项，在很大程度上比 
一个清晰的题项能够反映与潜在变量无关的因素。在你对评价者 
的指导语中，如果他们愿意的话，请他们指出拙劣的或者混淆的题 
项并且建议其他的揹辞6 

你请的评价专家所能提供的第三个帮助在于，指出你还没有 
考虑到的对这个现象进行研究的方法 9 或许有一整套方法被你忽 
略了 0 例如，在一个关于健康信念的题项库中，你或许已经建立了 
关于疾病的许多题项，但是没有把受伤考虑为健康的另外一个相 
关因素 6 通过对你已经用来测验所研究的现象的各种方法进行评 
论，评论专家能够帮助你使你的量表的内容效度最大化。 

关于专家组评价的最后一句蓍告:作为量表的编制者，对于专 
家组的意见，是接受还是抛弃，最终的决定权在于你自己。有时, 
有关内容方面的专家可能不理解量表构建的规则，这就可能导致 
坏的建议。从那些没有量表编制经验的同事那里，我经常收到这 
样的建议，即删除关于同一事物的题项。正如早先所讨论的那样， 
从一个題项库或者一个最终的量表中去除所有冗余，可能是一个 
严重的错误,因为冗余是内部一致性的一个整体部分。然而，这个 
评价或许表示题项的措词、词汇以及句子结构太相似从而应该得 
以改善 4 一定要仔细注意你收到的来自有关内容的专家的所有建 
议。 至于怎样使用他们的建议，你自己得做出明智的决定。 

在量表编制过程的这一点上，量表的编制者有了一套已经由 
专家评论过并因此修改过的埋项。现在到了进入下一个步骒的时 


候了。 


步骤5:考虑确认題项的包含性 


通然，编制量表问卷的中心是題项集合，因为所要编制的量表 
将从这些題項中形成。在同一个问卷里面包括一些额外的題项 • 
这或许有可能，并且也相对方便，因为这有助于确定最终的量表的 
效度 g 这里， 至少有两类题项需要考虑。 

在量表中，编制者应该选择的第一类題项是用来帮助自己发 


96 



现问卷中的瑕疵或者问题。被试可能不会按照你所假设的原由来 
回答最初研究的题项。可能有其他的动机会影响他们的反应。早 
点知道这一点是有好处的6其中一种能够被相当容易评价的动机 
是社会赞许性 (sodal desirability )。 如果一个人被强烈地激发按照 
社会认可的积极方式来呈现她或他自己的话，题项反应可能会被 
歪曲。包含了社会赞许性的量表就要求研究者去评价每个题项受 
社会赞许性影响的强烈程度。显著地与所取得的社会赞许性分数 
相关的题项应该被考虑为排除的对象，除非有充足的理论依据认 
为这些題项代表其他的东西。斯锥罕和盖贝斯 (Strahan 匕 Gerba - 
si , 1972) 已经编制出了一个简单而又有用的社会赞许性量表。这 
个包含10个题项的量表能够被方便地插人一个问卷之中。 

还有其他可资利用的题项帮助发现不当的反应倾向 （ Anasta - 
si ，1968) « 明尼苏达多项人格童表 （minnesota multiphasic per ¬ 
sonality inventory )，或者 MMPI ( Hathaway &- Meehi ，1951 ； 
Hathaway & McKinley ，1967), 就包括几个其目的在于检测各种 
反应偏见的分量表。在某些情况中，包括这些类型的分量表可能 
是合适的。 

在这一阶段考虑包含性的另外一类题项属于量表的结构效 
度。正如在第4章中所讨论的那样，如果理论认为你所要铡量的 
现象与其他的结构相关，那么该量表的分数与那些其他的结构的 
测量能眵被作为其效度的 证明。 在这个阶段应该尽可能包括相关 
的结构，而不是在建立了最终的量表之后再增加一个单独的确认 
工作，这种合成的关系模式能够为效度要求提供一些支持，此外， 
又提供了一些线索来帮助理解为什么这套题项不像预期的那样起 
作用。 


步骤6:在一个试测样 本中测 试题项 


在确定了你的问卷之中已经包含了与结构相关的题项以及效 
度题项以后，它们必须与新题项库一起在被试中试测。被试的样 
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本应该大些 。 多大才算大？关于这一点，很难找到一个一致的意 
见。先让我们来讨论一下关于一个大样本的基本原理，农纳利 
( Nunnally ，1978> 指出，在量表编制中的基本的取样问题，就是从 
一个假设的范围中选取一些題项作为样本（如， Ghi S elli，et al . ， 
1981)。为了强调题项的充分性，样本应该足够地大以便排除作为 
—个重点关注的问題的被试方差。他建议300个人是一个合适的 
数字。然而，实践经验表明，量表也能成功地用较小的样本来检 
测。题项的数量以及将要析取的量表的数量也关系到样本的大小 
问題。如果从一个有大约20 个題项 的题项库中仅仅抽取一个单 
一的量表，那么300个被试以下也就足够了* 

使用太少的被试会有几个危险。首先，題项中共变形式可能 
不稳定。当其被用在一个单独的样本上时，一个表面上增加了内 
部一致性的题项可能实际上是一个无用物。如杲因为其对阿尔法 
( tt ) 的贡献，题项被选择包含进来 （正如 经常可能发生的那样），那 
么一个小的试测性祥本会对内部一致性提供一幅不准确的乐观图 
景。当被试与題项之间的比率相对低，并且样本容董并不大时，题 
项之间的相关会由于巧合因素而受到相当大的影响。当重薪测试 
在这种倩况下编制出来的含有这样的题项的量表时，那些使有些 
题项最初看起来很好的偶然因素将不再起作用。结杲，俱然取得 
的而不是最初的试测所取得的《可能 比预期 的要低 * 类似地 ，一 
个可能是很好的題项或许会被排除，因为其与其他题项的相关会 
完全由于偶然因素被而削弱。 

小样本的另外一个潜在的缺点是，试测样本可能不代表这个 
量表打算测量的人群。当然，试测样本很大也可能有这样的情况， 
但是一个小的样本更有可能排除某些类型的个体。因此，量表编 
制者应该既要考虑试测样本的大小也要考虑其成分。正如第3聿 
中所讨论的那样，一个仔细的研究者应该选择用一个 O 研究来表 
达一个量表跨民族的普遍性(或者某些其他方面）。 

并 不是所 有样本的非典型性都一样。至少在两个不同的方 
面，一个样本无法代表更大的人群。第一方面涉及出现在样本与 
目标群体中的特征的水平 d 例如，一个样本与预期的人群相比，可 
能会代表着一个较狭窄的特征范围。这个压缩的范围可能也是不 
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均匀的，因此对于样本而言，该量表所获得的平均值就会比对于目 
标人群而言的要高一点或低一点，例如，关于适合喝酒的合法年 
龄的看法，在一个大学校园中和在一个大的社区中相比，可能变化 
很大。关于这个特征的不具代表性的平均值并非必然使祥本失去 
量表缠制的目的。它可能会产生对于量表均值的不精确的期待， 
但是其还是为量表所拥有的内部一致性提供了一 W 精确的图画 I 
例如，这种类型的祥本或许仍然会得出关于哪些题项之间有着非 
常强的相关的正确结论。 

样本不具有代表性的另外一个麻烦是，一个与目标群体有质 
上而非量上差异的样本，尤其是，其题项或结构中的关系与那些目 
标群体中的关系不同的样本 r 有理由值得关注。如果一个样本非 
常特殊 ，对 于一般的人来说埋項就会有一个不同的意义。題项中 
的 相关方式可能反映了由样本 成员所 共享的不寻常的性质，但是 
在更大的群体中却很少 4 换句话说，呈 现出内部相关 的题项（例 
如，通过因素分析> 的分组可能是非典型的，稍微正式一点来讲， 
如果一个样本在重要的方面与 g 标群体不一样，把变量与实际分 
数关联在一起的潜在的因果结构可能是不同的。考虑一些相当明 
显的例子:如果所选择的样本的成员不能理解一个重新出现在題 
项中并且与结构有关的重要单词，那么他们的反应将只能告诉我 
们很少的信息或无法吿诉我们在不同的情塊中这个量表如何发挥 
作用。： rkt 这个单词在美国表示“生病的_但是在英格兰却表示“作 
呕的”(例如，反胃）。因此，为一个群体编制的关于生病的一套问 
題，对于另外一群人来说可能有明显不同的意思。如果该量表是 
关于通常与作呕无关的特定健康问題（例如，风湿病），并且如果样 
本是英国人的话，那么使用山这个单词的题项会聚合在一起，因 
为其有截然不同的意思。另外一方面，一个美国样本就不可能把 
关于生病的陈述和其他与健康有关的 fi 项区綱开来。即使是在美 
国_同一个单词也可能有不同的意思.例如，生活在农村的南方 
人 r & fldWoorf 有时候被用作对性病的一种委婉说法，而在这个国家 
的另外一些地方,它的意思是“ 仇恨' 如果一个讨论“亲戚之间的 

Wood ” 的理项在农村的南方人与其他样本之间分别进行测试 
的话，其结果就可想而知了。 
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第二种类型的样本非典型性的结果会严重影响一个量表的编 
制工作。形成的潜在结构——对于量表信度非常重要的題项中的 
共变模式——可能是在编制过程中因样本而产生的一个巧合。如 
果研究者有理由相信，试测样本中的题项的意义可能不是稍大一 
点群体中的理项意义的典型代表的话，在解释从那个样本中所获 
得的发现时要非常小心。 


步骤7:求踵項的值 

在编制好一个初步的題项,仔细地对之进行检査，并且将它在 
一个适度大小而且有代表性的样本中渕试以后，对每个理项进行 
评价，以便确定合适的《项从而组成一个童表。从很多方面来讲， 
这是量表编制过程的中心环节。在重要性方面 ，題项 评价或许仅 
次于鼉项编制《 


初歩检 査鬵項的分数 

在编制題项时，我们讨论了量表題項的一些理想的性质◊让 
我们再来讨论一下这个话题 v 在一个题项中，我们所寻求的根本 
的性质是一个潜在变量的实际分数之间的高度相关。这直接来自 
于第3章中关于信度的讨论，我们无法直接评价实际的分数（如 
果我们能够的话，我们可能就不需要一个量 表了〉 ，并且因此不能 
直接计算它与埋项之间的相关》然而，我们可以根据到目前为止 
已经讨论过的正式的測量模型来进行推测。在第2聿中讨论平行 
测试的时候 ，我 讲到任何两个 ffi 项之间的相关等于这两个題项之 
间的一个与实际分数之间的相关的平方。这个平方值就是每个题 
项的信度。因此，我们可以从题项之间的相关来获得与实际分数 
之间的相关，埋项之间的相关越高，每个题项的信度就越离 （它们 
与实际分数之间的关系就越紧密）。各个題项越可信，由这些题项 
所组成的量表也越可信（假设它们有一个共同的变量）。因此，在 
一套量表埋项中我们首先要寻求的性质是它们之间的内部高度相 
关 . 一种对题项的内部相关进行测定的方法是相关矩阵* 
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反向记分 


如果有題项与其他 ffi 项之间的相关是负的，那么应该考虑对 
这些题项进行合适的反向记分。早先我就提出，以相反方向措辞 
的题项可能造成问題9然而，有时候我们可能漫不经心地就把负 
相关的题项处理掉了。例如，如果我们最初期待两个单独的題项 
组(例如，关于幸福与悲伤），由于某种原因决定它们应该被合并为 
一组的话，这种情况就有可能发生 # 于是我们可能处理掉那些与 
新合成的结构(例如，情感)同等相关的陈述，但是有些陈述可能是 
积极的而有些则是消极的 # “我很幸福”与“我很悲伤”都适合情 
感。但是，它们却相反。如果在我们的量表中我们想要好的分数 
来測量幸福，那么我们就会必须给认可 “幸福 ”的題项以高的分值 
而给认可“悲伤”的题项以低的分值。做到这一点的一种方法是， 
使反应选项的文字描述(例如，“强烈反对”、“中等程度地反对”等) 
对于所有題项来说都始终以相同的順序出现，而对于与它们相联 
系的分值则要么按照升序排列要么按照降序排列，这取决于題项， 
如下 所示： 


(1) 我经常感到悲伤。 


6 5 4 3 2 1 

强烈地中等程度地湛和地 》和遶中等程度遶强湫地 
反对 反对 反对 赞成 赞成 赞成 

(2) 大多数时候，我是幸福的， 

1 2 3 4 5 6 


强烈地中等程度地溫和地溫和地中等程度地《烈地 
反对 反对 反对 赞成 赞成 赞成 


这个过程可能会使被试感到迷惑。当意识到对于所有的題项 
来讲它们都是一样的之后，人们就会忽略这些词语。然而，改变一 
下描述的顺序或许更好一些（例如，对于一些題项，从左到右，从 
“强烈地反对”到“强烈地赞同”；而对于另外一些题项则反过 来）。 
另外一种方法是，对于所有題项，使文字描述和它们相应的分值都 


101 



一样，但是在数据编码的时候给某些题项不同的值。在缟码的时 
候改变某些厘项的分数，这项工作既单调乏味又有潜在犯错的倾 
向，对于每个被试来讲，每一个要被反向记分的题项在反向记分 
中要给予特别的注意。这就为犯错误留下了大量的机会 a 

最简单的反向记分方法是，在数据被输人计算机后立即就进 
行反向 记分. 一些计算机软件能够处理所有被试数据的所有反向 
记分。如果反应选项有数字形式的值并且理想的转换是把这些值 
的顺序反过来的话，那么就可以使用一个简单的公式 P 例如，偎设 
其模式为使用利克尔特量表的一套关于傭绪的题項_从1到7记 
分，大的数宇表示赞同，进 一步® 设，为了便于理解，积极的倩绪 
«项和消极的情绪题项都使用了这种相同的反应模式。然而，如 
果认可积极的情绪与 离的分 数相联系的话，那么这个量表本质上 
就是一个积极的情绪暈表 • 认可一个积极的情绪会得到一个髙的 
值，而认可一个捎极的情绪会得到一个低的值。如果对于所有消 
极情绪題项来说,7这个反应值被换成1，6换成2,如此等等，其就 
是可能得到的结果。这种转换可以用以下这个公式通过从已有的 
分数中创建一个新的分数来完成： 


新分教 =CJ + 1) —巳有分数 


这里新分数和已有分数分别指转换后的和最初的分数，而 J 
是最初的反应选项的数目。在所举的例子中，/就等于7而 （/ + 
1) 等于8,从 S 中减去分数7的结果是1，减去 S 的结果是2,如此 
等等 。 

题項中的有些负相关可能无法通过反向记分来修正。例如， 
对一个特定的题项进行反向记分会消除一些负相关，但是会产生 
另外一些负相关。这通常表示有些翅项不是简单地属于量表，因 
为它们不是一贯地与另外一些題项相关 * 如果没有反向记分这种 
模式来消除负相关的话，那么在一个相似的集合中，与一些題项正 
相关而与另外一些睡项负相关的任何一个睡项都应当被排除。 

題項-量表相关 

如果我们想得到一套内部高度相关的题项的话，那么每一个 
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题项都应该稳定地与其余的题项集合相关。对于每一个题项，我 
们可以通过计算其题项-量表相关来检查这种性质。有两种类型的 
题项-量表相关 9 修正的题项-量表相关使被计算的题项与除自身 
以外的所有量表题项相关，而未修正过的题项•量表相关使问题中 
的题项与整个候选题项集合相关，包括它自身。如果一个量表中 
有10个题项需要考虑的话，对于这10个題项中的任何一个，修正 
的题项-量表相关将由其与其他9个之间的相关来组成。未修正的 
题项-量表相关将由其与所有10个之间的相关来组成。理论上，未 
修正的值告诉我们该题项在整个量表中的代表性如何 9 例如，这 
与求一套 IQ 测试的分测试与整个测试之间的相关从而决定这个 
子测试是否是具有代表性相类似然而，虽然一个未修正的题项 • 
量表相关提供了好的概念上的意义，但是实际的情况却是,題项包 
含在“量表”中会使相关系数膨胀。一套量表中題项的数量越少， 
详细调査中的题项的包含性或排除性所带来的方差就越大《总 
之，检査修正的題项-量表相关或许是明智的。对于这种相关，一个 
分值高的题项比一个分值低的題项更理想。 


题项方差 

量表题项的另外一个有价值的特征是相对高的方差。列举一 
种极端的情况，如果所有的被试对一个特定的题项的回答完全一 
样，那么在个体中就根本无法辨别所测量的结构的不同水平，并且 
其方差将会是0。相反，如果试测样本在所研究的特征方面是不同 
的，那么一个题项所获得的分数的 范围也 会是不同的。这就暗示 
着一个相当大的方差4当然，通过加人误差成分来增加方差•这种 
做法并不是我们想要的。 

雇项的平均值 


在选项的分数范围内，接近中心位置的平均值也是理想的。 
例如：如果对每一个題项的反应选项的值的范围是从1到7，选1 
表示强烈的反对，而7表示非常同意，那么一个接近4的平均值是 
很理想的。如果一个选项在这个范围的极端值附近，那么这个选 
项可能无法检测这个结构的某些值。例如，如果很多人都选择7 
这个分数值，则暗示着这个选项的措辞不够有力（例如，很难找到 
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不同意该題项的人)。 

通常，与反应范围的极端值靠得太近的平均值題项将有低的 
方差，并且那些在一个很小的范围内变化的题项与其他题项的相 
关是很差的。正如前面所讲的那样，一个没有变化的题项不能共 
变。因此，任何不平衡的平均值或者低的方差，都将会减少一个題 
项与其他题项之间的相关 • 可以把注意力主要放在题项之中，作 
为对它们的潜在值测量的一个关系模式。然而 ，一 旦根据相关而 
对題项做出了一个试探性选择的话，那么检査平均值和方差将是 
一个有用的双重检査 ( double ^ check )* 


因素分析 

一套 e 項集合尹不必然是一个量表。題项可能没有共同的潜 
在变量(如在一个索引或突然出现的变量中〕或者可能有好几个 • 
确定 * 含在一个题项集之中的潜在变量是非常关键的。例如•作 
为阿尔法的一个基础的假设是，这个题项集合是单维度的。确定 
哪些 題项集(如果有的话)组成一个单维度的集合的最好办法是因 
素分析。对整个章节（见第6章）的有益性来说，这个话题是足够 
童要的，因素分析要求大量的样本，量表的编制总体上来讲也是 
需要的。如果用于因素分析的桩试太少的话，整个量表的编制过 
程可能就会受到影响。因此，某些类型的因素分析通常是这个时 
期的量表编制的一部分。 

阿尔法系数 （coeificient alpha ) 

一个量表最重要的指标之一是信度系数，阿•尔法。实际上，迄 
今为止所讨论的所有各个题项问题——非中心平均数，不好的差 
异性，题项之中的负相关、低题项-量表相关、以及弱的内部题项相 
关——都将会减少阿 ■尔 法，因此，在我们选择了题项，即去除了差 
的题项而保留好的题項之后，阿尔法是对我们所做的工作成功与 
否的一种评价方法。阿尔法表示由实际分数引起的在量表分数中 
的方差的比例 P 用于计算阿尔法的方法有好几种•但在自动化的 
程度方面却不同。一些计算机程序含有计算阿尔法的题项分析程 
序 4 在 SPSS 中，有信度程序来计算整个量表的阿尔法以及所有 A 
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一 1 个版本的阿尔法(例如，去掉一个题项之后的每一个可能的版 
本〉。 这个程序也提供修正过的和未修正过的題项-量表相关。作 
为相关程序的一个特征 •: Proc Corr , SAS 包括阿尔法计算。在 
Proc Coir 中，通过选择阿尔法选项，在伴随变量（例如，说明）的陈 
述中所列举的变暈将被作为一个量表，并且将会为整个題项集合 
以及所有可能的* 一1 个题项集合计算阿尔法。同时也会得到题 
项-量表相关。 

计算阿尔法的另外一种方法是用手工计算 • 如果单个題项以 
及作为一个整体的整个量表的方差是有用的话，那么它们就能被 
带入在第3章中所讨论的第一个公式中去求得阿尔法。或者我们 
可以使用斯皮尔曼-布朗公式，这个公式也是在第3章中介绍的 * 
这个公式使用来自相关矩阵中的可用信息而不用来自方差中的信 
息计算阿尔法 6 这个方法的一个缺点是，相关是标准化的协方差， 
并且对每个题项进行标准化可能会影响到阿尔法的值 * 如果我们 
严格裹守平行测试的模型，那么这就是不合逻辑的，因为相关是被 
假设为相同的 9 然而，实际上它们永远不会精确地相等。基本 
Tau 相等测试模型没有要求題项中相等的相关，只是要求协方差 
相等。因此，由于误差而引起的每个题项的方差的比例在这个模 
型下就不会变化。然而，由于斯皮尔曼-布朗公式的搡作 ® 理实际 
上是平均的内部埋项相关，并且 Tau 相等測试模型所篇 I 含的一个 
条件是，平均的题项 一量表 相关对每个題项都是相等的，所以仍然 
没有问题。尽管如此，但是在以协方差为基础和以相关为基础的 
计算模型所取得的阿尔法值之间可能存在着小的（或许有时是大 
的〉 差别。因为协方差矩阵使用一个比较单纯形式的数据（没有标 
准化〉 ，因此它更令人喜欢并且经常被使用。 

理论上，阿尔法的取值可以从 0.0 到 1. 0,但是其不太可能取 
得这两个极端值中的任何一个。如果阿尔法值是负的，那就意味 
着出现了什么错误《 —个可能的问题是在题项中的负的相关（或 
者协方差）。如果这种情况发生了，正如在本章早先所讲到的那 
样,尝试反向记分或者删除一些題项。农纳利 （ NunmiUy ，1978) 建 
议把 0.70 这个值作为阿尔法的比较低的可接受边界值。在已经 
出版的量表中，我们会经常看到有比较低的阿尔法的量表，不同 


105 



的方法学家和研究者开始寻求不同水平的阿尔法 值。 对于研究量 
表，我个人觉得合适的范围如下：低于 0. 60,不能接受 ？ 0. 60〜 0. 
65,不理想; 0.65 〜 0. 70,最低程度的可 接受; 0. 70-0. 80,可观的_ 
0. 80-0. 90,非常好 | 大量地起过了 a 90,我们应该考虑缩短这个 
暈表(见下一节关于量表的长度）。我要强调的是，对阿尔法值的 
这种分段，是我个人的经验并带有很大主观性 6 我们无法为它们 
找到严格的理论基础。然而，它们反映了我的经验并且似乎与其 
他研究者的评价有大量的交迭。我所建议的值适合稳定的阿尔 
法 4 在编制过程中，根据其对阿尔法的贡献，直接地或者间接地选 
择题项。超项中有些明显的共变可能是由于偁然因素造成的，因 
此，在编制阶段尽量寻求那些比你所期待的阿尔法要高一点的阿 
尔法是明智的。那么，当其被用在一个新的情境中的时候，如果阿 
尔法被恶化了，它们也仍然可以接受，正如早先所讲到的那样，如 
果发展性样本太小，研究者应该尤其要注意，在量表编制阶段所获 
得的最初的阿尔法估计值可能不稳定。正如我们将要看到的那 
样，当组成量表的题项数量太小时也会出现这种情况。 

当人们在编制一个要求严格的精确的量表时，我所建议的阿 
尔法的“合适范围”钛不适用了， K 床倩境就是一个例子.我所建 
议的阿尔法范围适合与群组数据一起使用的研究工具，例如.其 
阿尔法为 0.85 的量表可能完全适合在与所拥量的结构有关的对 
比组研究中使用。单个体的评价，尤其是根据这个评价做出重要 
的决定的时候，则要求更髙一些的标准。例如，用于个体诊斷、雇 
佣、学术地位或者其他重要的目的的量表，或许要有相当高的信 
度，应在 0.90 〜 1.0 的范围内办 

在某些 情況下 ，例如当*表由一个单题项组成的时候，把阿尔 
法用作信度的指标就不可能。如果可能，应该做一些信度评价。 
W 试一重 测相关可能是这种单一題项事例中的惟一选择。虽然这 
个信度指标并不完美，正如第3章中讨论的那样，但是明显要比完 
全没有信度评价要好 6 如果可能，一个更好的方法是用不止一个 
埋项来构建这个量表。 
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步骤 8: 优化童表长度 


量表长度对信度的影响 

在量表编制的这个阶段，研究者已经有了一个可接受信度的 
题项库，一个量表的阿尔法受两个特征的影响：題项中的共变的 
程度以及量表中的®项数量。对于那些有题项-量表相关的题项， 
如果其与平均的内部題项相关大约相等（例如，非常有代表性的题 
项〉， 那么增加更多的题项将增加阿尔法，而减少题项将降低阿尔 
法, 一般而言，短一点的量表比较好，因为它们给被试的负担较 
少。另一方面，较长的量表更可靠。显然，增大这两个方面的一个 
就会减少另外一个。因此，量表的编制者应该考虑一下简短性和 
信度之间的最佳平衡。 

如果一个量表的信度太低，那么简短性就没有意义 ◊ 实际上， 
被试或许会更愿意回答一个有3个題项的量表而不是一个有10个 
题项的量表 a 然而，如果研究者不能给从较短的量表中获得的分 
数以任何意义的话，那么量表就失去了价值 8 因此，只有当研究者 
有“多余的信度”时，才能对量表长度进行缩减 * 实际情况则是，人 
们更注意以更低的成本编制信度稍许低一些的短量表。 


顧除 “差的"題项的影噙 


删除 “差” 的题项实际上是增加了阿尔法还是稍微降低了阿尔 
法，这取决于被删除的題项有多差，以及这个量表中的题项数量。 
考虑一下较多的题项或较少的题项的影响，这些题项都是同样“好 
的”题项——即与它们的对应物有可比较的相关：具有较少题目的 
量表，阿尔法会随题目的增加或减少产生大幅度的 改变， 如果 4 
个题项中的平均内部超项相关是 0. 50的话，那么阿尔法就等于 
0. 80。如果只有3个題项的平均内部题项相关为 0. 50的话,阿尔法 
就会下降到 0 .75.有同样的平均内部®项相关的5个题项，阿尔 
法就为 (X 83。对于平均内部题项相关为 0. 50的有9个、10个和 
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11 个题项的量表•阿尔法就会分别为 0. 90、0. 91和 0. 92。在后面 
几种情况中，阿尔法不仅要高一点,而且它们的值也靠得更近， 
如果一个題项与其他题项之间有一个低于平均值的相关，去 
掉它会增高阿尔法。如果其与另外题项之间的平均相关只比总体 
平均值低一点点（或者相等，或者高 一点〉 ，那么保持这个题项将增 
加阿尔法。我在前面就说过，一个有4个题项的量表会取得一个 
0. 80的阿尔法,平均内部題项相关为 0. 50。对于那个将被刪除的 
題项来讲，与另外3个題项之间的平均相关为多低才能有助于阿 
尔法而不是妨碍阿尔法？首先，考虑一下以下情况，对于一个有3 
个题项的量表来说要获得一个 0. 80的阿尔法，其平均内部题项相 
关必须为多少？它应该需要为0.57。因此，在®除了 4个題项中 
的最差的一个之后，为了保持阿尔法的值为 0. 80,剩下的3个题项 
就需要一个 0.57 的平均内部题项相关。其平均内部题项相关低 
于 0. 57的3个題项会比其内部题项平均值为 0. 50的4个题项有一 
个较低的阿尔法。假设4个题项中的3个最好的題项之中有一个 
0.57 的平均相关，剩下的（因此也是最差的）一个題项与其他3个 
之间的平均相关就必须低于 0. 43,这样它的 ffl 除就会实际上增加 
阿尔法(有3个内部题项相关的平均值为 0. 57的题项和1个内部 
题项相关的平均值为 0. 43的题项，就会得到这4个之中的总体平 
均内部埋项相关值为0.50)。对于任何大于 0.43 的值，保留第4 
个题项 要比降低平均内部題项相关要好。因此，这一个“差 的“题 
项要远比另外3个题项差 (0. 57-0. 43 = 0. 14) 才值得删除掉 d 
现在，考虑一下当一个有10个题项的量表并且其阿尔法为 
0. S 0 时的情境。首先，平均内部题项相关仅仅需要为大约 0. 29,这 
表明了这样一种方式，即更多的题项抵消了它们之中的较弱的相 
关。对于一个有9个題项的量表来说要获得同样的阿尔法，平均 
内部题项相关就需要大约为 0.3 U 为了把其包括进来作为第10 
个题项从而把总的平均内部題项相关降低为 0. 29,一个“差的”题 
项就需要与其余9个题项之间有一个大约为0, 20的平均内部题项 
相关。如果无法使平均值低于这个值，就会导致題項的增加有利 
于阿尔法。在这个例子中个“好的”題项和1个“差的”题项之间 
的平均内部题项相关的差为 0. 31 — 0, 20 — 0, 11，比在有4个题项 
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的例子中所发现的差别要小。 

董表长度的完善 

在实际中，人们如何完善童表的长度呢？显然，应该首先考虑 
删除对内部一致性贡献最少的题项，这些可以通过很多种方法来 
确定 0 SPSS 信度程序以及在 SAS 中的 Proc Corr 的阿尔法选项 
可以显示删除一个題项对整个阿尔法造成的影唉。删除后对阿尔 
法产生最少的消极影响或者最大的积极影响的那些題项，通常是 
最好的首选删除题项。题项-量表相关也可作为确定哪些题项应该 
被舍去的一个标准。那些有最低的題项-量表相关的题项应该首先 
被删除 a SPSS 也为每个题项提供了一个平方多重相关 Uquared 
multiple correlation ) ，这是通过求一个题项与所有剩余题项的回归 
而获得的。这是对題项的集体性的评估，即这个睡项与其他題项 
共享方差的程度。就如题项-量表相关的情况一样,具有最低的平 
方多重相关的题项是需要删除的主要对象 。 一 般而言，题项质量 
的这些不同指标是集中在一起的。当这个题项被删除以后，一个 
差的題项-量表相关一般会伴随着一个低的平方多重相关以及阿尔 
法值的较少的降低，或者甚至是一个增长。量表长度影响阿尔法 
的精确度。在实践中，所计算出来的阿尔法是依据測量假设与实 
际数据之间的合适性而对儐度进行的一个估计。我们已经注意 
到，当包括更多的题项时，阿尔法会增长（除非它们是相对差的题 
项)。 此外，作为对信度的一个估计的阿尔法的信度，也会随着题 
项数量增长。这就意昧着，依据一个较长的量表所计算的阿尔法 
比一个较短的量表计算出阿尔法更可信> 当进行被试间施测时， 
一个较长的量表比一个较短的量表会有更相似的阿尔法值。在纗 
制过程中，在决定一个量表需要编制的长度时，应该考虑这一事 
实 3 

最后，在试图优化量表的长度时应该为阿尔法留一个安全余 
地，记住这一点是重要的，当用这个量表对一个样本而不是对其 
最终的被试进行测量时，阿尔法可能会减少一些。 
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样本分离 (split sample ) 


如果试测样本足够大，就有可能把它分离为两个子样本◊一 
个可以作为最初的试 ffl 样本，而另外一个可以被用来反复核对结 
果 9 因此，从第一个子样本中所获得的数据可以用来计算阿尔法， 
评价题项，完善量表长度，以及编制出看起来最理想的量表的最终 
版本 6 第二个子样本可以用来重复这些发现。对要保留的題项的 
选择无须以第二个子样本为基础。因此，这组计算出来的阿尔法 
以及其他数据就不会出现早先所讨论的偶然性效应，例如阿尔法 
膨胀。如果这两个组之间的阿尔法保持相当稳定，假设这些值没 
有被偶然因素所歪曲的话，你就可以更放心，当然，这两个子样本 
可能要比两个完全不同的样本要相似得多。从整个试测样本中分 
离出来的子样本，可能会代表相同的人群;相反，一个完全新的样 
本或许代表一个略微不同的人群。同样，这两个子样本的数据收 
集时期也不会由于时间而分离，而一个试测样本与一个完全不同 
的样本几乎总是会分开。另外，适合一个子样本的数据收集的特 
定情境也相同地适合另外一个。这些特定的情境的例子包括特定 
的研究人员、物理环境以及问卷打印的清晰性。同样，这两个子样 
本可能是完成两套题项的两组被试，要完成所有量表題项包括来 
自最初的睡项库中最后要舍弃的題项。如果舍弃的题项对 量表题 
项有影响的话，这些影响就可以在两个样本之间进行比较。 

尽管这两个合成的子样本有独特的相似性，但是分离试测样 
本来重复已有的发现，提供了关于量表稳定性的有用信息。这两 
个子样本在一个重要的方面有 区别： 作为题项选择的数据基础的 
第一个子样本，存在着题项中可靠的共变有可能与不稳定、偶然的 
因素相混淆。在第二组中，根本就不可能系统地使俱然因素影响 
信度，因为其数据没有影响理项选择 ◊ 这一根本差别成为分离样 
本从而获得有价值信息的最充分的理由。 

分离一个足够大的样本的最明显的方法是把它分半。然而， 
•如果这个样本太小而不能分离出两个足够大的均等部分的话，你 
可以不均等地分离它，较大的那个子样本可以用于更至关重要的 
題项评价过程与董表构建，而较小的那个用于重复确证。 
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练习 


假设你正在编制一个关于对蛇的恐怖 （ fear - of - 
snake ) 的量表，采累6个选項的利究尔特反应模式，使用 
300个被试。里然对于实际的量表編制来说•会需要更多 
的题項，但是请做这些练习： 

1>创建有10个利克尔特模式题项的一个题项库。 

2) 对于每一个你所写的题项，估计一下由“持折衷态 
度的人”(例如，既不是一个蛇恐怖患者也不是要蛇的魔 
术师） 所认可的利克尔特值是什么？ 

3) 从数据库中选出一个你怀疑会对一个持折衷态度 
的人造成一个极端反应的题项，并且重新编写它使其引 
发一个较适中的反应。 

4) 另外创建10个利克尔特題項来測量蛇恐怖以外 
的结构。随机把这些题項与原来的10个题項*合在一 
起，并遨请体的朋友来判断他们认为每个題项是打算测 
量什么的。 

5) 使用蛇恐怖或者你的第二个题项库所隐含的结 
构，直接列举可以观察到的那些能够被用来确认一个测 
量该结构的量表的行为，并解释你如何便用行为数据来 
进行确认。 

6) 如果你的10个蛇恐怖题项有一个 0. 30的平均内 
部題项相关，这个量表的阿尔法会是什么 r 

7> 你怎么运用样本分离来估计和再确认这个量表的 
阿尔法系数。 


« 练习6,阿尔法》<10父0.30)/[1丁（9乂0.30)] = 0.61, 
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因素分析 

Factor Analysis 


因素分析橄述 
Sf 分枬的概念描述 
因素的解释 
主成分与共间0子 
验证性 S 亲分忻 
董表编 制中 rat 分析的使用 

样本大小 
结 论 


在第 2 章讨论能描述量表题项与潜在变量之间关系的不同理 
论模型时，我提到了一般因素模型9该模型并不假定只有一个潜 
在变量是题项间所有共变量的来源。事实上 * 这个模型允许多个 
潜在变量作为厘项集变化的原因。 

为了阐明多个潜在变量怎样支撑题项集，我将描述一种具体 
的、基本上是假想的情境。社会和行为学家感兴趣的许多结构能 
在多个具体化水平上进行可操作化处理。心理调节 （psychological 
adjustment) ，情感 （affect) ，消极情感 （negative affect) ，焦虑 （anxie¬ 
ty〉， 以及考试焦虑 (test anxiety> 等术语都是心理结构等级化现象 
的例子。每个术语都包含量表午的那些题项，并且可焦在任何具 
体化水平上编制量表。可以假定，不 R 措辞的、具有不同时间结构 
和反应选项的埋项能形成从具体、中等到一般水平的量表连续体。 
量表鑛制者期望他们能够选择与预期的变量的特定水平相一致的 
理项措辞。然后，用因素分析来评价选择过程是否成功。 

为了使例子更具体，假设一下有一个包含25个理项的、适合 
用于測量情绪的理项集合。我们关心的是:这些理项是否能够组 
成一个总体的量表或宥许多更具体的分量表.能将所有的25个 
題项组合在一起吗？或宥，这些题项是否更适合于分成几个量表 
来測试不同的情绪状态，例如用来分别測试抑郁、欣快、敌意、焦虑 
等等？可能这些题项更适合分成几个分别用来测量积极情绪和消 
极情绪的分量表（例如，从“高兴”到"悲伤”的维度来测试沮丧，或 
者从“紧张”到“平静”的维度来测试焦虑〉。我们怎么知道用哪种 
方式来处理手边的題项最合适呢？事实上，这个问题的实质是，关 
于几个情绪状态问題的題项集到底是由一个还是由几个潜在变量 
支撑的？ 

在试图回答这些问题时，如果只使用前几章所讨论的方法而 
不是因素分析方法的话，其结果将会失败。我们将计算有关情绪 
的全部理项的 a 系数。 a 系数能吿诉我们一组題项的共同变异是 
多少。如果系数低，我们就可以找出那些相互之间具有很强的 
相关的题项，从而形成一个題项子集。例如，我们可能怀疑表示积 
极情感的题项与表示消极情感的題项之间没有联系，把它们组合 
在一起会降低 a 系数 6 更同质的題项子集之间 〈所 有的表示积极 
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情感的题项或所有表示消极情感的题项）的 CC 系数将较高。当然， 
在某种程度上，我们可能也担心，越具体和越 R 质的量表相互之间 
的联系之所以越强，是因为它们仅仅是间一情绪状态的不间方面， 
这表明这些題项属于同一个量表而不属于相互分离的子量表 6 

强调一个相关性高的 a 系数并不等于赞间所有的题项都受单 
—潜在变量的影响 6 如果一个量表包含25个理项，12个题项反映 
了一个潜在变量，那么剩下的 13 个題项或许可能反映了另一个潜 
在变量，在所有题项的相关矩阵中，有些题项之间具有较高相关， 
有些题项之间的相关则较低。受相间潜在变量影响的两个题项之 
间的相关会较高，而那些主要受不同潜在变量影响的变量之间的 
相关则较低。在一个由25个题项组成的量表中，不同题项之间的 
平均相关可能高到足以得出相当大的 a 系数。例如，不同題项之 
间仅 0. 14的平均相关就足以得出 0. 8的 a 系数。 

本章的主题是因素分析。因素分析是一个有用的分析工具， 
它能告诉我们一些重要的量表特征，这是信度系数所不能吿诉我 
们的*它能帮助我们从实验上决定在这些題项中有多少个结构、潜 
在变量或因素^ 


因素分析概述 


因素分析的功用较多。它的一个主要功能，像刚刚所说的那 
样，是帮助研究宥决定一组题项中究竟含有多少个潜在变量。例 
如，以25个关于情绪的题项为例，因素分析能帮助研究宥决定題 
项集中表现的究竟是一个更一般化的结构还是几个更具体的结 
构。 因素分析也能通过采用较少的新确立的变量来解释较多的原 
始变量之间的变异。这意味着精减信息，使得采用少数的几个变 
量就可以解释变异。例如 ，一 般需要25分来描述被试如何回答題 
项，但是在合并题项的基础上，有可能计算更少的分数 〈或 许甚至 
是1 分〉 来回答题项。因素分析的第三个目的是确定因素的实质 
性内容或意义(例如，潜变量），从而能对大量題项集之中的变异进 
行解释。这种解释可以通过确认相互作用的变量集以及明确定义 
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潜在变置的潜在意义而得以实现。例如，如果在分析25个关于情 
绪的题项时出现了 2个因素，那么，构成那些因素集的单个題项就 
能够提供因素所描述的潜在潜变量的线索。 

接下来的部分简单地介绍了因素分析的概念。那些想对因素 
分析有更详细了解的读者可以参考其他作者的文章*如库尔顿 
( Cureton * 1983) 、哥萨奇 （ Gorsuch ， 1983)、哈曼 （ Harman ， I 976 〉或 
麦克唐纳德 (Mcdonald ， 1984) a 

与因素分析的嫌念方法类似的例子 

为了给什么是因素分析一个直观的橛念，我们考虑了我们可 
能更熟悉的两个例子，这两个例子虽然不那么正式*但却具有大致 
相似的程序。这个程序的第一个例子有时会在人力资*管理中发 
生。在人力资源管理中，有时团队内的成员或合作者关心的是这 
样的问题，即那些貌似不同的各种具体问理背后所存在的共同问 
題。这时，这个共同的问题需要被识别出来。 

例1 

假定一个小的新公司想确定职员认为同事的什么品质最重 
要。他们认为识别和奖励共同的价值品质对于形成一个协调和合 
作的工作环境是十分重要的 6 公司聘请了一个人力资源专家来帮 
助他们，这个人，我们叫他吉姆 ( Jim )， 召集了公司的10个职员并 
解释道：他希望他们考虑一下，在所有可能与同事在一起的情境 
中，包括一起制订提案和报吿、一起与潜在客户打交道到以及在咖 
啡厅共同饮咖啡等等，他们认为同事的哪些品质是最重要的•吉 
姆建议•在程序开始时，每个职员分别在各自的纸上尽可能多地写 
F 他们认为重要的品质。 

在职员写下他们的想法后几分钟，吉姆要求一个志應者向大 
家读出他或她的想法。爱丽斯 ( Alice ) 说她写下的一个品质是“愿 
意分享观点”。吉姆感谢她并要求她把写有这个想法的纸貼在墙 
上。另外一个职员比尔 ( BiU )， 读了一个他认为重要的品质，幽默 
感' 这也被貼在墙上。这个程序持续至每个职员都表明了他们 
认为的合作者应当具有的重要品质为止。这样，人们逐个说出了 
各种各样的、他们认为同事应具有的重要品质 9 
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当这些工作做完之后，他们把列有每种品质名称的清单貼在 
墙上。清单列举了如下 品质： 


愿意分皁观点 

友好 

有幽歎感 

能被依靠 

在工作中永远能选择正确的方式 

注意细节 

聪明 

坚强 

不草率 

好交际 

勤奋 

认识大量潜在客户 

工作能随时完成 

可信赖 

有迮辑 的思考 

有个性 

必要时麁经受住困难 

受过良好教育 

为工作做准备 

值得信任 

给頋客留下良好印象 

知道如何穿着 

并不争取获得所有荣誉 

会讲故事 

有趣 

天才 

有漂亮的车 

守诺的人 

在这种类型的工作中有大量的经验 

愿意为了完成工作需要 


而长时间工作 


这个过程持续了一段时间，很快墙上贴满了 30多张纸，每一 
张纸上写着一个职员认为重要的品质。下一步，吉姆问他们是否 
能够合并一些品质。凯塞瑞 ( Katherine ) 指出“聪明”和“天才”是相 
同的 # 吉姆拿下清单，将“天才 " 移到“聪明”的下方。弗兰克 
( Frank ) 主张“受过良好教育”也可以分到这一组。几个其他品质 
也被加到相同的陈述组中。卡拉 （ Carla ) 认为“友好”和“给顾客留 
下良好印象”是相同的但又不同于前一组提到的品质，她主张这两 
个品质能合并形成一个新的组别。那么/‘有趣”也可以加人这个 
组。“不草率”和“知道如何穿着”构成了第三组 # 但一个职员认 
为，把“不草率”和“为工作做准备”放在一组要比把“不萆率”和“知 
道如何穿着”放在一起更恰当一些。这个过程持续到吉姆和职员 
们得到了几个品质集合为止。事实上，每种被描述的品质都被放 


116 



人某个品质集合之中。 

然后，吉姆要求职员用一个词或简短的描述性短语给每个品 
质集合命名。不同品质集合被命名为“智力”、“容貌”、“尽责”、“人 
格”、“可依赖性”等等0可以假定，每个品质集合代表了一个核心 
概念，这些概念与职员对另一个人的品质的看法相关联。 

例2 

几年后，这个公司准备重复这一做法 9 经理怀疑事情发生了 
很大的改变，最初确定的品质集合现在看来可能已不合适。但是， 
公司又没有像吉姆这样的人力资源管理者。这时•卡若 ( Carol ), 公 
司的一个执行官，认为想要得到相同信息的一个相对简单的方法 
可能是编制一个与人们先前进行的测验相类似的问卷。这时，要 
求职员用“一点也不”、“某种程度上”、“十分”这样的短语来描述他 
们认为的每个品质的重要性程度。回答问卷调査的职员，现在大 
约有150人。当卡若收回问卷时，她浏览这些问卷并寻找最重要 
的品质。虽然她发现不同的人认为不同的品质有不同的重要性程 
度，但还是有某些品质具有相同的重要性等级趋势。例如，如果人 
们认为“重视细节”是重要的，那么也可能同时认为“为工作做准 
备”是重要的 。 那些认为其中一个品质不重要的人 ，一 般也会认为 
另一个不重要。卡若想弄清楚产生这种现象的原因。她记得.在 
几年前最初的将纸片贴在墙上的做法中，好像最初产生的组别要 
比实际所需要 的多。 她想，一些人的看法可能是相当没有价值的， 
有时好像同一个人写了多个无价值的品质，这将导致一个整体无 
价值的类别。她想知道，是否存在一种能够决定可以从职员对其 
同事的看法的大部分信息中抽取出多少个类别的方法。作为解决 
这一问 題的一 种方法，可以像两个她已注意到的选项一样，将职员 
间相似的看法加以合并。事实上，她在组合相似題项时不仅需要 
考虑职员观点的内容，也要考虑职员对这些特征题项的评价的相 
似性。这需要花费大量的时间，而且卡若也不能真正确定她是否 
选择出了所有的重要的品质集合，但是她能够用问卷这种方式收 
集一些有趣的想法。 

这些方法的缺点 

这两个例子虽然与因素分析在概念上存在某些相似之处，但 
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也存在某些重要的差别。在这两个例子中，测验得到的是一系列 
已对大量信息重新组织而形成的、易于管理的、更抽象的、但充满 
意义的类别。因此，每一种重新分类导致的结果是，最初许多个体 
提出的大量的观点被合并成了几个少数的想法。当然，这两种方 
法也具有十分明显的缺点。在第一个例子中，研究者没有控制不 
同个体所产生的看法的性质 9 例如，虽然性格外向的人并不总是 
具有洞察力，但通常性格外向的人可能会比性格不那么外向的人 
提出更多的看法 6 由于这样或那样的原因，这个过程通常导致一 
些模相的、不相关的，或是十分可笑的看法。由于该活动的内容具 
有的动态性，想要排除一些看法而又期望这么做不会冒犯提出这 
些看法的人，可能就有点困难。于是研究者可能会让这些看法和 
那些好的看法一样具有信度 ◊ 即使这些 B 项之间具有广泛的联 
系，一些题项之间也会比其他的題项之间具有更密切的关系。可 
是，在研究中，所有的題项都或多或少地趋于被平等地对待。如果 
出现了几个简单的題项，它们可能仅仅基于相似性而组成一个类 
别。组别可能会被区分出优先颞序，但这通常在所有的参与者一 
致同意的情况下才会这么做，并且这种优先顺序也依赖于是谁提 
出这个特征的，而且也可能勉强认为某些类别是不重要的。进一 
步说，我的关于 此类* 验的经验表明，参与者存在将每种看法列人 
某种类别的强烈趋势。几个简涪的类别和一两种孤立的看法并列 
在一起，使人们觉得其缺少封闭性，所以，在通常情况下，即使没有 
证据表明_余的孤立的看法之间存在联系，但参与者还是会将这 
些孤立的看法组成一组。最后，虽然一个类别可以由类别的具体 
例子来定义，但有些例子能良好地表征类别，有些例子则不能。 

第二个例子避免了上述的一些缺点。卡若能删除一些她认为不 
相关的题项，虽然这种处理在很大程度上取决于她的主 m 判断。但 
至少确认襄项的过程在某种程度上是民主的。每个人能在不冒着疏 
远同事的危险的情况下对每个翅项做出评价。分组所依据的不是现 
点的表面相似性,而是人们是否以一种共同的方式来反映相似的題 
项集。也躭是说，相似性是埋项的一个特征(某些題项隐含了相同的 
看法），而不是被试的特征(对不同的题项做不同反应的人）。参与者 
认为在一个组别中的某个题项不重要，表明其很可能认为同一组别 
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中的其他题项也是不重要的。但不同的职员也可能都认为某些題项 
是重要的。关键的问题是♦不管个体如何评价题项的重要性，组内的 
观点是趋于一致的。事实上，这是卡若建立品质组的基础。对于50 
份问卷来讲，靠视觉检査来做到这一点，是相当令人气馁的 * 而且很 
可能卡若的分类系统也不是所有可能的方法中最有效的方法。对題 
项来说，具有多大程度的一致性才能被认为是一组？ 一个职员对同 
—个潜在品质集合的两个題项做出不同评定的情形(例如，对重要性 
的赞同与反对），卡若能容忍几次？ 


因素分析的概念描述 


因素分析是一个与上述方法相类似的分类程序，但它是以一 
系列更加结构化的编制来完成的，并且为数据分析者做出评定提 
供了更加明确的信息。像刚刚描述的方法一样，因素分析确定了 
由相似的特征构成的类别。因素分析者的首要任务就是决定喬要 
多少个类别来捕获来自原始的陈述集合中的大量信息。 

抽取因子 


事实上，因素分析的第一步是假定一个大的类別包含了所有 
必须的题项(例如 ，一 个概念或类别足以解释反应的模式然后评 
估一个单一槪念能在多大程度上解释题项之间的联系；最后，因素 
分析确认这一单一槪念的假设是否恰当。如果一个概念或类别明 
显不能充分解释题项间的共变，因素分析就会拒绝最初的假设，然 
后会再确定第二个概念（例如 ，潜在 变量或 因子〉 来解释题项间残 
余的共变。这一过程要持续至因素不能解释的共变量小到能够接 
受的程度为止。 

第一个因子 

怎样完成因子的抽取？这个过程从所有题项间的相关矩阵开 
始。用这个矩阵作为起始点，因素分析要检验题项间的相关所表 
示的共变模式。接下来是概念的推述。为了方便阐述，我们略去 
了一些数学上的细节•所以不能刻板地认为这是计算机进行因素 
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分析的原理。 

正如先前所阐述的那样，这个过程包含了一个最初的假设，即 
认为单一概念足以解释题项间的相关模式，这等于是一个临时的 
假设:如果一个模型只有一个单一的潜在变暈（例如，一个单因 
子），并且该潅在变量到每 一 a 项只有一条单独的路径，那么它就 
能准确地体现因果关系。这进一步表明，这样的一个模型能解释 
超项间的相关$为了检验这个 假设， 因素分析程序必须确定每个 
题项与代表单一潜在变量的因子间的相关，然后再看观察到的題 
项间的相关能否通过适当的增加因素与每对变量的连接路径来重 
构。但这个程序怎样能计算到可观察到的题项反应与表示无法直 
接观察或测量的潜在变暈的因子之间的相关呢？ 



解决这一问題的一种方法就是所有題项反应的总和是这一个 
包含一切的潜在变量的合理的数量估计值，该潜在变暈被假定为 
可以解释題项间相关。事实上，这一总和是对潜在变量“分数”的 
一个估计值。因为所有理項的实际分数被认为由一个潜在变最决 
定，所以来源于所有埋项的数量上的联合信息（例如，全部的总和) 
是对潜在变量的数量值的一个合理估计值。将个别埋项分数加在 
一起得到一个总分，并计算每个理项和所有题项的总和之间的总 
体題项相关 （ item-total correlations ) 是十分简便的。題项总体相 
关表示的是作为可观察的题项和不可观察的潜在变量（例如，从潜 
在变 ft 到个别 S 项的因果路径〉之间的相关。随着数值被分配到 
因果路径上，就能计算出基于单因素模型反映出的題项间的相关。 
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如果只存在一个潜在变量这一前提是正确的，那么这些由模型得 
出来的相关应该就是对实际的内部题项间相关的映射。我们可以 
通过比较映射的相关和实际的相关来评估这一前提的合理性。这 
等于从以原始数据为基础的相应的实际相关中减去每个映射相 
关。如果实际的相关与映射的相关存在着差异，那么这表明单因 
素模型是不充分的，題项间仍存在一些不能解释的共变* 

考虑一下一个单一題项对的这样一个序列 A 和 B ， 它们是一 
个大题项集的一部分。首先，包括 A 和 B 的整个题项序列将被加 
在一起以得到一个总分数，然后，计算 A 与总分数的相关和 B 与 
总分数的相关。假设这两个題项总分相关分别表示了 A 和 B 与题 
项背后潜在变量相对应的因子间的相关 。 如果只存在一个单一的 
潜在变量这一前提是正确的，那么在一个包含 A ， B 和 E 子的路径 
图中，从后者到每一个前者之间都将存在路径 〈图 6. 2中的 a 和 
b )。 我们可以用题项总体相关来推述这些路径的值。根据这个路 
径图， A 和 B 之间的相关将是这两个路径的结果。计算 A 和 B 之 
间映射的相关只需要简单相乘。一旦被计算，这个映射的相关将 
与实际的 A 和 B 的相关进行比较。这个映射的相关可以和实际的 
相关相减产生一个残余相关 9 如果残余相关不等于零，那么这将 
表明，把一个单一的潜在变量当作 A 和 B 之间的共变的惟一原因 
是不充分的。 



可以间时对整个相关矩择中的每对变量执行这种搡作。不是 
只计算一个残余相关就结朿了，而是计算整体残余相关矩阵(可称 
之为合理的残余矩阵），每一个残余相关表示了一个特定的®项对 
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之间的共变量，该共变量是一个单一的潜在变量所不能解释的。 

继发因子 （subsequent factors ) 

现在，用对待原始相关矩阵相同的方法从残余相关矩阵中抽 
出第二个与新的潜在变量一致的因子，这是可能的。再进行一次 
计算，能计算出理项和第二个潜在变量(例如，因子 2) 之间的相关， 
并且根据这种相关也能产生一个相关矩阵。这些相关播述了在第 
二个因子被考虑后瘸余題项之间的相关程度。如果第二个因子获 
得了抽取第一个因子后纗下的全部共变，那么这些映射值 ( projec ¬ 
ted values 〉 将能与上面提到的残余矩阵的值进行比较，如果不是， 
那么就需要更多的因子来解释剩余的尚未归因于某个因子的 
共变。 



■ 6.3 两 B 子模& 

随着每个连续的因子被从先前交互作用而形成的残余矩阵中 
柚取出来，这个过程持续进行直至得到一个只包含小到可以被接 
受的残余相关的矩阵为止。此时，我们能确定，基本上全部重要共 
变已得到了解释并且不需要用更多的因子来解释。这个过程有可 
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能继续直到获得全部由零构成的残余矩阵为止。例如，在因素分 
析过程中，当抽取的因子的数量与題项的数量相等时，这种情况就 
会发生，换句话说, i 个因子的集合总能解释 A 个題项集合之中的 
全部共变 9 

决定抽取多少个因子 

决定抽取多少个因子是一个棘手的问題（例如， 
Zwick &* VeUcer ,1986) 。进行因素分析的主要目的是*从一个大的 
变量集(项目）转移到一个能合理地抓住原始信息的较小集合（因 
子），即是说，精简信息。决定什么是“合理的工作”可以采用几种 
方法。 

—些 H 素分析的方法，例如，那些基于最大似然估计 （ maxi ¬ 
mum likelihood estimate ) 和基于结构平衡的验证性因素分析程序 
(confirmatory factor analytic procedures , 随后我们将讨论）的模型 
方法，采用的是统计标准。在本书中，术语“统计标准”判断某一个 
结论成立可能性是否小到足以排除其出现的随机性。这等于是执 
行一个测试来检验，在抽取每个连续的 H 子后，剩余的残余共变量 
在统计上是否远大于零。如果大于零，这个过程将持续至不大于 
零为止。依赖于统计的标准而不是一个主观的判断，是这些方法 
令人感兴趣的特征。当然，在量表编制中，这可能与其面临的目标 
并不一致，面临的目标确定了能解释題项间重要共变的一个小的 
因子集合。基子统计的方法的目的是寻找一个对潜在題项集的因 
子的详尽解释。如果存在不能由已抽取的 H 子解释的共变源，就 
必须继续抽取因子 ◊ 量表编制者通常追求的是对因子进行谨慎的 
解释。 BP ， 在量表编制的过程中，我们通常想知道的是那些少量 
的、但又有重要影响的、支持題项集的共变源，因为我们不能找出 
所有的共变源。在编制一个量表时，通常会形成一个比期望要寻 
找的最终量表长得多的題项集。对那些已经确定对主要的因子没 
有贡献的題项，我们可以删除它们 * 我们的目标是：确定相对少量 
的、与潜在变量有强相关的題项。虽然熟练的数据分析者能通过 
使用统计标准的因素分析方法达到此目的，但对一个不熟练的研 
究者来说，采用其他更主观但不模糊的指导方法可能会做得更好 
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这些相对主观的指导方法通常以一组因子能解释的原始題项 
的总变异的百分比为基础，这在本质上与以统计学为基础的方法 
是相同的 6 在采用非统计标准(如，不是基于概率）的情况下，数据 
分析者可以评估每个因子包含的大量信息，并在一个下降点达到 
回归点时作出判断。这是一个基于十分主观的标准而不是基于 P 

值-个统计学标准——对相关（例如，信度系数）进行解释的 

粗略类比。在足够的因子被抽取后，进行判断的两种广泛使用的 
非统计标准是特征值法则 （ K “ er ，1960) 和碎石检验 （scree test ; 
Cattell ，1966>。 

一个特征值 （ eigenvalue 〉 表示了一个因子所获得的信息量。 
对某些类型的 H 素分析方法（例如，主成分分析法 , prinripal com ¬ 
ponents analysis ， 在下一部分讨论）来说，題项集合的信息总量与 
題项数相等，因此，在一个有25个題项的分析中，将有25个单位 
的信息。每个单位的特征值与这些单位的某些部分一致，例如， 
在一个对25个埋项进行分析的例子中，一个特征值为5的因子可 
以解释20只的 （5/25) 总体信息， 2. 5的特征值可以解释10%,等 
等。如果一个埋项集有 R 项，信息数与信息量的关系是 1.0 的特 
征值与題项间总变异的 1/ R 相 一致、 也就是说，获得了 1. 0的特 
征值的因子(假定是主成分分析)获得了与典型的单个超项相同比 
例的总体信息。因此，如果 H 素分析的一个目标是获得少量的能 
充分获得在原始变量群中所包含的信息的变量，那么因子就必须 
比原始題项具有更大的信息负荷 （ loading )。 H 此，特征值法則 
( Kais er a 960) 认为，不必保留特征值小于 1.0 的因子（从而包含更 
少的信息量），虽然排除这些因子的基本原理有道理，但对那些只 
稍微高于 1.0 的因子该怎么办？ 一个比典型題项多解释了 的 
信息的因子真的提供给了我们更多的信息吗？答案通常都是否定 
的，这表明特征值法則对于保留因子来说是一个太宽的标准。我 
相信这是传统的量表编制方法的一个较为膂遑的问題。 

碎石检验也使用特征值，但是它是以相对值而 
不是绝对值作为标准的。它以联合连续因子的特征值而形成的地 
形图为基础。因为每个 H 子是在第一个因子抽取后，从先前因子 
抽取后的残余矩阵中抽取出来的（如前所述），因此每个连续因子 
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的信息量都少于前者。卡特尔主张，“正确”的因子数目可以通过 
寻找连续因子间信息置 （ BP , 特征值维度）的突然下降来决定当 
绘图时，这种信息将形成以左边主要为垂直部分（表示大的特乩 
值)过渡到右边相对水平的部分（表示小的特征值）为特征的地形 
图。他认为，图的右边的水平部分的因子是可以牺牲的。在外行 
看来，晬石是在山崩后在地面上收集到的小石子 5 这里采用这个 
术语，表明垂直部分是稳定的 S 子•而水 平部分是碎石，或9石子， 
是必须丢弃的 # 在理想的情况下，在这个图形中，因子的信息量在 
某一点上会突然下降，存在一个陡峭的、从垂直到水平转移的一个 
清晰的“转折” ( elbow ) 。 



转折-- 3 4 5 


数字 

K 6.4 有明&辁折的砗石图 



卡特尔的标准要求保留存在于转折的上方的那些因子。有 
时，这种转折不是突然的而是缓慢的，是由在图的垂直区域和水平 
区域之间的几个因子构成的一条较为柔和的曲线 6 在这种倩况 
下，应用卡特尔的碎石检验将需要慎重并且涉及甚至对主观标准 
的更 大依賴 ，例如因子的可解 释性。 当与因子相关的理项彼此相 
似并且作为一个整体结构的指标具 有理论 和逻辑意义时，一个因 
子才被认为可以觯释 a 
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因子旋转 (rotating factors ) 


抽取因子的目的只是确定用来侧验的因子的适当数目。将信 
息处理成可以理解的方式不是抽取因子的目的。原始的、未经旋 
转的因子是一种无意义的数学上的抽象槪念。作一个大致的类 
比，假设我被要求描述一下一个房间内所有人的高度。我决定随 
机选择一个人，例如•我选择乔 ( Joe ) 并测量乔的离度，然后以这个 
高度作为参照来描述其他人是高于这个身高还是低于这个身高。 
所以，一个人的身高可能是“乔的身高加3英寸”而另一个人的身 
高是“乔的身高减2英寸”。在这个例子中，所有的关于高度的信 
息都可以在我的数据表达中得到，但这没有被组织成最优化的信 
息组织方式$对人们来说，如果我把这些数据整理成更容易理解 
的方式，例如，把房间的每个人的高度用英尺和英寸来表示，那么 
人们就会很容易理解我的数据。因素分析与把已获得的数据以易 
于理解的方式进行转换相类似。 



数宇 


9 5.5 没明9转折的碎石 B 

在尝试觯释因子之前——确定与因子对应的结构或潜在变量 
是什么，这依赖于与每一个因子相关的題项——通常需要执行因 
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子旋转。因子旋转通过确定一个由于单一潜在变量而使得特征突 
出的变量群来增加其可解释性，即它们全部只与一个或相同的因 
子之间有强的联系（并且在很大程度由此决定），这一点上题项是 
相似的。旋转和更大的解释性的产生并不是通过改变题项或题项 
间的关系来完成的，而是通过选择能更好地描述它们的方式来完 
成的。題项集中题项内部的相关模型与空间中的物理定位相似。 
如果两个题项趙相关，那么代表这两个题项的标记就放得更近。 
如果我们对许多題项都这样做，那么，这些物理定位的标记将呈现 
一个表示变量间相关的模型（如果我们把自己限制在两个维度上， 
这一模型就很容易出现）。想象中的物理客体的定位是通过淆在 
的规则来决定的，而我们可以用另一种方式来思考题项间由潜在 
的因果变量决定的联系。 

旋转类比1 


旋转怎样使我们看见变量间总是存在的但又不明显的模式？ 
做一个类比，我们可以看一下一个布局非常好的墓地，例如阿林顿 
公墓,在这儿整齐地排列着统一的纪念碑6站在远处的某地往墓 
地看，你可能没有发现,这些墓裨和圆柱是沿一个有箭头的轴线方 
向排列的《如果所看见的线条并没遵循直线排列的任何一条自然 
轴线的话，这些墓碑似乎是随意放置的6当你改变观察点时，你可 
能会发现这些墓碑有特定的顺序。也许你向左或向右迈出一小步 
并使你的视线沿着一个对齐的标志观察这些墓碑，你就能发现它 
们的规则线。这时，每个标志都明显地和其他标志共享一条行（和 
列 h 所有在一条线上的标志在某种程度上是相同的——它们拥 
有一个在先前的观察点不能发现的属性（即处在相同的线上这一 
关系〉。因素旋转与为数据的组织结构提供一个观察点相类似，其 
目的是使題项间共享特征的方式变得明显。 

值得注意的是，只要采用适当数目的正交参照线，不管多少条 
参照线都能定位客体 * 举一个二维参照线的例子，如阿林顿公墓 
(暂时忽略小山和山谷)就能阐明这一点。我能在公墓的任何一个 
定位点圆一条线并确定与这条线正交的第二条线。用这两条线, 
我就能具体定位任意墓碑 t 我能说，“沿 A 轴50码，然后向右转 9 CT 
(事实上与轴 B 平行），并前进10码/这将把你定位在一个具体的 
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点上。根据从墓地画出的任意两条正交线，使用其他合适的指导 
语，我能把你引人同一 位置， 所以，能适当地播述具体地点的定位 
线是任意的。任意两条正交线与其他的两条正交线在定位一个具 
体点时具有相同的信患功效 9 当然，这种假设成立的条件是:存在 
适当数量的线 8 在这个例子中，我简化这个公墓为一个二维空间。 
相应地，为了定位墓地内所有可能的点，两条线是充分而且必要 
的。如果我只有一条定位线，根据这一条定位线所确定的位置来 
引导你到达目的地，只能是一种俱然现象。因素旋转是一种用最 
直观的方式来确定适当数量线条的方法（在抽取因子的过程中 
决定 h 

关于**最有效”的操作性定义指确定題项间固有的相似性 （与 
墓碑共享一条共同的线相类似）并确定定位参照线，以便在分析的 
过程中使分析具有相同的维度（与沿着标记性的箭头的定位线类 
似，从这条线的第一个墓碑走到相同线条的最后一个墓碑）。为了 
达到此目的•我们也可以采用只有一个维度（例如，只沿标 志线〉 的 
方式，即只用一条而不是两条线的方式来恰当地描述研究的步骤。 
虽然墓地有两个重要的维度，但是我们可以通过只采用其中一个 
突出的维度变量来描述墓地*例如沿着一行的位置。 

类比通常是不精确的。在这个例子中，我们更多地强调如何 
根据一行的方向来描述墓地，而很少提到如何根据列来描述墓地。 
关键的问理是 t 定位适当的参照线可以使墓地的特征简化。下面 
的类比虽然也是不精确的，但我们能清晰地发现单一的维度是如 
何使特征简化的。 

转类比2 

某些基地(我期望这些例子不会让你感到太恐怖）是按下葬时 
间的早晚顺序排列的 # 一些欧洲古老的墓地是根据声望排列的, 
例如，最著名的和最虔诚的死者被安排到离教堂最近的地方。想 
象一下•一个墓地可能按上述所有的标准进行排列，表示埋葬时间 
的早晚的线条与教堂的墙平行并与表示声望的高低的线条正交, 
在描述之前，墓地的任意地点能通过参照任意两条正交线而被具 
体地定位。但是,请注意，如果我采用一条平行于教堂的线和另一 
条与教堂正交的线作为参照来推述墓裨•我能通过只使用其中的 
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一条线(沿埋葬时间早晚的前 迸线〉 或另一条线（沿墓地拥有者声 
望的高低的前进线）使大量关于墓地方位属性的信息得到简化。 
其中的一条线表示了坟墓之间的声望这一相同的维度。另外一条 
线表示拥有坟墓的时间长短这一相同维度（图 6.6 ) a 



葬日期和死 


图 6.6 根据埋葬日期和死者的声 m 排列坟塞的假想墓地 


如果一组旅行者想知道这个城市已产生的最有声望的公民的 
墓地可能在嘟儿•我能告诉他们，直接沿着教堂的这条线走，死者 
的声望将逐步提高。相对而言，沿教堂的墙的那条线所代表的特 
征与声望无关 a 我也能指导旅行者沿平行于教堂的长轴的线条寻 
找这个墓地中最古老的墓。这时，离沿教堂的墙的这条线多远或 
多近与墓的古老程度无关。 

相对于釆用两条参照线来描述墓地的方式而言 •只采 用一条 
参照线也是一种有用的定位方式•因为它允许我通过只参照一个 
单一的值（如沿一个轴或另一个轴）而简化另一个也能决定墓地组 
织结构的变量的信息。如果旋转这两个轴，例如，顺时针旋转 
43.5°, 那么这将是一个不那么有效的参照线。如果某人刚开始的 
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时候采用这种参照线来定位某个墓碑的话，那么，当他想再次找到 
这个墓碑时，恐怕就不会很容易。虽然采用这两条轴线也能和早 
先的一对线条一样精确具体地定位某个墓碑，但它不是一个简便 
的有组织的定位方式 9 

这个墓地的类比与真实題项的因素分析的根本区别是，在我 
所描述的墓地中所有可能的地点都已被占用。也就是说，已有的 
坟墓表示了所有的声望高低和古老程度，在本质上，这个二维网 
格是被填满的9当然，在一个真实的墓地里，坟墓也不可能完全根 
据两条参照线的顺序组织起来6这可能是初步的工作并可能需要 
十分长的时间。当有更多的墓地时，就越需要在古老程度和声望 
之间进行协调。当对定位一个坟墓有更多的要求时，在墓地变得 
拥挤之前考虑这个问理可 能宴好 一些。 

人口密度不那么大的墓地加强了我们在量表编制中的类比, 
因为在后一种情况中，我们通常没有能表示问题中的两个维度的 
全部可能程度。当我们写下题项时，我们有意不使它们涉及研究 
中的多个 变量。 当一个題项明显能产生多个的潜在变量时，我们 
会丢弃它。结果，在两个变量的情况下，我们试图对我们希望测量 
的每个变量拥有强的、不模糈的題项.这将与一个高声望和十分 
古老，土质松软的坟墓定位的墓地版本相类似。 

因此，如果我们想象我们的这个版本的墓地与试图表示两个 
潜在变量的题项集十分一致，那么它就只会有作为这两个维度中 
的每一个维度相对筒单的例子的坟墓，即较早的埋葬和较高的声 
望。这种安排导致一组坟墓集中在教堂墙的一侧（例如，那些离声 
望的公民），而另一组明显地集中在教堂墙的正交线的末端，如图 
6.7 所示。这时，坟墓同时用更古老和较高声望一起来定位（如图 
中显示的那样在墓地右上方的角落）。余下的坟墓中的任何一个 
都可以被明确地归类为属于这些墓群中的一个，而与其他墓群关 
系甚少。 

在因素分析中，通过寻找导致每个题项主要负荷于（例如，与 
之相关)惟一一个因子，旋转就可得到明晰化，本质上，这是尝试 
着寻找一个与我们所推述的有选择性地埋葬的坟墓相类似的模 
式。这些題项通过强调所有题项都与单一因子相关，而以一种有 
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明 6.7 明屋地分为非常古老和非常有声里两 个慕醇 屏的假想慕地 


意义的方式被賦予特征 # 每个题项在一个单一因子上有 1.0 的负 
荷并在其他因子上有 0.0 的负荷 # 这是一个完美的假想情况，被 
称为简单 结构， 在简单结构获得 s 有可能的近似计算法则时，旋 
转运算使用优化的数学标准。因此，如果假定某个潜在变童支撑 
某几个题项，那么一个成功的因素旋转的最终结果是:一个数据结 
构，诙结构反应了那些共享有某些基本特征的题项的自然分类，可 
能是因为这些题项的一个共同潜在变量在起作用。同时，那些題 
项与定义其他题项群的任何特征之间很少有关系。 


正交旋转与斜交旋转 （orthogonal versus oblique rotation) 

迄今为止的所有例证都以互相正交的基准线为基础。这与统计 
上要求的因子之间要互相独立一致，也就是因子之间是无关联的。 
因子之间被描述为互不相关的。当两条直线相垂直时，知道一条直 
线的知识并不能说明已经知道另一条线的信息。例如，知道一个人 
距离北方多远，并不表示能知道其距离西方有多远，因为两个方向是 


互不相关的 。 同样地，在我们想象中秩序井然的墓地里，即使知道某 
一坟墓有多古老 也不意 味着知道已故者多有声望。 

当两条基准线不互相垂直时，知道一条线的位置信息便能为 
另一条线提供一些位置信息。如杲我们用一条想象中的大致穿越 
迈阿密到波士頓的线代替纬度，知道某个人处于该直线（或其平行 
线）的任一端，可为推断那人可能位于更北或更南端提供一些依 
据9沿着某一经度线编写的旅游指南和这条假定的线条是相关 
联的 . 

因子旋转也可以允许基准轴（和与它们相一致的因子）相互关 
联，而不必在空间上相互垂直。这种旋转被称为是斜交旋转而不 
是正交旋转。当潜在变量在某种程度上被认为相关时，斜交旋转 
可能是有用的0由于只有一个类别，简单结构的目的是使題项能 
被有意义地分类 b 也就是说，每个题项应该只和一件事相关，从而 
仅涉及一个因素。如果变量在某种程度上相关，但由于因素分析 
方法的限制，代表它们的因素被迫完全独立，那么便不可能实现该 
目标。也就是说，由于因子之间的相关，所以不止一个因子可能会 
和一些或所有的題项发生联系。我们将其近似地播述为筒单结构 
时就会受到限制， 

回到先前的合作者的品质这个例子上，如果责任心和可信性 
确实相关联，那么，和一个因子相关的題项可能也和另外的 s 项有 
相同的变异0然而,如果两种因子在某种程度上被允许相关联，那 
么其情形就大致和以下的推理类似 t 责任心和可信性被认为彼此 
相关 # 事实上也允许通过因子之间的相互关联来处理该论据，现 
在，撇开那不说，这些因子中哪个因子与问趙中的题项具有最强的 
联系？因此，让因子本身之间互相相关使题项和其中一个或是其 
他的因子錄被较为明确地分为一类成为可能，从而使我们更接近 
我们的筒单结构的自标4澤使给定的一对 K 項之间在因子水平上 
是相关的，埋项徂不必和两个因子都賴关。 

当因子被旋转至傾斜时，所失去的是不相关因子的精确性和 
简便性 4 不相关因子的一个非常好的特征是它们的组合效应是各 
自效应的简单相加.某个因子对某个具体理项进行解释的信息量 
可以被加到另一因子所解释的信息量里，从而获得两个因子共同 
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m 6.8 允许 B 子相关的两 B 子嫫型 

解释的信息总量。有了倾斜因子，情况就不同了>因为它们相关， 
所以，这两个因子中就包含了多余的信息。对于一个与责任心和 
可信性都相关的题项，由两个因子共同说明的变异的数量小于各 
部分的总和。一个因子能解释的信息能和其他因子能解释的信息 
重叠 I 简单相加将使该部分重叠信息被加两遵，这不能准确地反 
映所有因于对这个题项的影响《 

相关因子出现的另一个新问题是题项和因子之间的因果关系 
更具复杂性。当因子是互相独立的时候，一个因子和一个具体题 
项之间的联系是惟一的和直接的。因子水平上的变化将导致题项 
的直接的单一的因果关系的路径发生变化。但是，当因子之间是 
相关的时候,情况就不是这样的。例如，如果两个假设的因子都影 
响题项 A , 并且因子之间相关，那么每个因子便对題项 A 产生直接 
和间接的影响。也就是，因子1影响因子2,并通过因子2间接影 
响题项 A 。 这是除了因子1对题项的直接影响之外的又一影响 a 
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当然，通过类似的过程，因子 B 通过和因子 A 的联系也直接和 
间接地影响了该题项。同样的直接加间接的影响也适合所有其他 
题项。因此,在谈及一个题项和一个因子之间的关系时，通常必须 
准确地限定包括或不包括那些间接的影响 | 此外，这种影响的模 
糊性能导致随后的混乱。 

选择旋转类型 


在实际情况中，对正交旋转和斜交旋转的选择应该存在一种 
或更多的考虑。其中之一是:一个人如何评价因子所代表的概念。 
如果理论足以支持相关的概念，那么它可能使得照着已有方法进 
行的因素分析(具体地说，是旋转）是合理的。因此,如果我们分析 
与责任心和可信性相关的题项，那么，使因子间相互关联便将最符 
合我们对这些概念的含义的理解。另外可能是，理论也许会认为 
因子之间是不相关的。例如，可信性和玩笑之间可能是相互独立 
的，因此可能会得出可信性与玩笑是不相关的结论 a 当理论不能 
提供强有力的证据，并且当量表还存在一些在此之前没有被研究 
过的表征和概念时，因子间相关性的大小可以作为指导。尤其是, 
斜交旋转可以被具体化,并且因子间的组合相关可以被检验出来。 
如果这些很小(如，小于 0. 15)，数据分析者就可以选择直角旋转。 
这是简单结构的一个近似的折中，但最终将导致更简单的模型。 
例如，一些题项可能表现出次要的负荷（即，在某个因子上有负荷 
而不是在某个因子上有非常强的负荷），虽然这相对间接地、略微 
地增加了题项的负荷，但是仍然可以清楚地把每个题项和惟一的 
一个因子联系起来.因此，某个题项在被斜交旋转的3个因子上 
的负荷可能是 0. 78,0. 16和 0. 05。当选择正交旋转时，负荷可能 
是 0. 77,0. 19,0.11, 虽然第二种范式比第一种稍稍背离了简单结 
构，但研究中的题项仍然能明确地和第一个因子联系起来< 函此, 
这个例子中，选择更简单的（即，正交的）模型就没有什么损失。如 
果因子间高度相关，那么选择斜交的方案可以对近似的简单结构 
产生实际的改进。例如，和正交旋转一道获得的 0.40 的次要负荷 
可以和斜交的方案一起缩小至0, 15。虽然这不是普遵的情形，然 
而只有对两种旋转方法之间的差异进行测量，才能够明确地说明 
它们在简单结构上的不鬨相似性程度6 
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图 6.9 因为因子阏相关，因子 ] 同时直 接彩响（黑实体线）和间接影 期 
( 黑体虛线）題项 A 

最后一个实际问题涉及两种因素之间相关性的大小以及在把 
两个因素结合为一个更大的相关之前的相关性到底要有多大。对 
千这个问题没有简单的答案，因为需要考虑题项和因子间的 关系。 
但是,在某些倩况下，即使两个因素之间具有高相关，斜交旋转的 
结果也可以表明一些题项对两种因素确实都有负荷。在那种情形 
下，袖出一个因子后，观察呈高相关的两个因子是否可以合并为一 
个因子就很有意义。例如，实际的数据将支持合并关于责任心和 
可信性的题项为一个因子，而不是分开它 
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因素的解释 

在涉及责任心和可信性題项的例子中，我们曾假设我们准确 
地推断出潜变量是什么 # 在通常情况下•我们在随后的研究中将 
依靠因素分析所得出的与镥变暈的特征有关的线素*这将通过检 
验那些最能说明每个因子的题项来完成•也耽是在某个持定的因 
子上有最大的负荷量。有最大负荷的题项是那些最接近潜在变量 
的题项（同时也是最相关的所以，它们使我们能够讨论因子特 
征。当几个理项明确地把一个共同的变量和大的负荷（大于 0. 65) 
集中于相同的因子上的时候，检验是最容易完成的。回到同事的 
重要品质是什么这个例子中去，如果“聪明”、“固执’’、“有教养”同 
时也许还有一个或两个其他的和智力水平相关的题项都在同一因 
子上有大的负荷，并且没有其他题项在那个因子上有大的负荷时， 
那么推断出“归因于智力的重要性”或某种等价的描述作为该因子 
的恰当表述将是相当容易的。 

虽然在某些情况下为某个因子选择一个表述似乎明白易懂， 
但是确定一个名称和确定效度是不一样的< 题项集是否继续作为 
所确定的名称的含义将最终决定效度，在解释方面，当因子解释 
相对少的变异，同时又有大量看似不同的题项负荷于因子上的时 
候，因素分析要尤其小心。如果分析得出了一个由看似不同的題 
项支持的因子，那么最好不要太过认真地把该因子视为潜在变量 
的指标 6 

在解释阶段值得提出的另外一点是素分析仅能发现用于 
说明被分析的題项之间联系的结构，并不揭示现象的本质。例如， 
某个试图确定人格的基本维度的研究者如果在量表中不包括关于 
外倾性的题项，因素分析便不可能获得外倾性因素 g 

有时候，包含一个特定的短语会产生一个关于概念上有意义 
的因子的错误表象。例如，当一些叙述用第一人称表达，而其他的 
不用 第-人 称时，可能会对这神观察到的联系模式作出解释 。看 
看以下的假设题项： 
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1) 我喜欢苹果， 

2) 桔子的味道很好， 

3) 水果中我更喜欢苹果。 

4) 很多人喜欢桔子。 

5) 我通常甚欢苹果。 

6) 桔子通常有令人偷悦的香味。 

7) — 个新鲜的桔子可以很好地款待他人， 

如杲奇数项负荷于一个因子，偶数项负荷于另一个因子，我们 
不会知道，基数项中的“我”这一称谓是否导致了两个因素，或者人 
们是否对所提到的两类水果表示了不同的态度。两种解释都似是 
而非且互相 混淆。 这是一种我们或许会或许不会把苹果比较成桔 
子的一种情形. 


主成分与共同因子 

有两种能巧妙地分析数据的方式；因素分析和主成分分析> 
一些作者认为，这些技巧从根本上说是相同的；而另外一些研究者 
则认为，它们是根本不同的。因素分析这一术语有时候同时包含 
这两种技巧,有些时候又被用来播述二者之间的对立。共同因子 
和主成分这些术语以一种较为清楚的方式表明它们分别源于因素 
分析和主成分分析。我们有基础来论述这两种方法的相同点和不 
同点， 

主成分分析法 （principal components analysis ， PCA ) 可以用来 
分析一种或多种能从较大的題项集中获得大量信息的复合变量。 
此外.成分被界定为原始题项的加权和.也就是说，主成分是原始 
变量的线性转变 9 它们以实际数据为基础并源自实际超项。它们 
仅仅是实际题项中信息的重组。 

共同因子分析 （common factor analysis ， CFA > 也能用来分析 
一种或多种能从较大的超项集中获得大量信息的复合变量。但这 
些复合变量表示的是假设变量。因为它们是偎定的，所以我们能 
获得对这些变量的全部的评估9共同因子是一种理想化的、假想 
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的结构(结构的本质通过检测其如何影响具体题项来推断），该结 
构可能使题项得以如实地回答。 

成分和西子的异同 

以上描述突出了成分和因子之间的一些不同.其中一点是 t 
0素代表的是我们所评估的、理想化的、假设的变量，而成分及其 
结合在一起的信息是原始題项的可选择的形式.提取共同因子背 
后的实质是我们可以排除每个不与其他睡项存在共同特点的題 
项。 从因素分析的观点看，如果题项有信度，题项间没有共同的变 
异事实上是错误的6因此，在我们抽取共同因子时获得的混合信 
息是对理论上无误差 （ erroffree ) 的潜在变量的估计。在这时，共 
同因子被理想化——它们是对决定一套題项集的无误差变量看起 
来是什么的 评估. 此外，因子“决定”了超项被如何回答，而成分由 
M 項 被如钶 回答来“定义”。因此，在主成分分析中，主成分 是题项 
的最终产物，同时，在厘項中获得的实际分数决定了主成分的性 
质*然而，在共同因子分析中，我们沿用的是一个理想化的、假定 
的变量，这个变量是得闺厘項分数的依据。一个因素是对假设变 
量的一种估计，并且表示的是题项分数 的厚因 而不是结果。 

两者的相似之处是什么？首先，二者间的计算差异很小。记 
住，共同因子分析的目的是估计某个理想化的无误差变量，但是 
我们必须从实际数据中产生这种估计。如我们所提到的，因素分 
析方法通常是以一个表示被抽取因子的題项之间的所有联系的相 
关矩阵为基础的。回顾一下第 3 聿，我提出了在一个协方差或相 
关矩阵里,所有对角线外的值仅表示共同的或公共的变异，那么 
正如我所谈到的，相关矩阵只是方差一协方差矩阵的一种标准形 
式，它们之间的相关是标准的协方差并且是®项变异的标准联 
合。每个标准的题项方差表示了由某一题项证明的所有共同的或 
个别的变异性9为了产生一个理想化的、无误差的变量，必须除去 
沿着相关矩阵中主对角线所包含的题项方差的特殊变异部分 。更 
具体地说，每种联合必须用共同的估计 （communality esti ¬ 
mate ) ——包含在因素分析中的某一特定变量和其他变置的共同 
变异的小于1,0的一个近似值——来替换，例如，如果我们估计 
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某一特殊变量在相关矩阵中占其他题项的总变异的45%,那么我 
们将能确定共同的估计是 0. 45,并用它代替用 1. 0表示的题项总 
变异。我们将对每个变量做这样的处理，即用共同的估计代替每 
种联合(通常，共同的估计可以通过问题中的变量在剩余变量中的 
回归来获得，即把这种回归获得的复合相关的平方， R 2 , 作为共同 
的估 计）。 这个过程可以产生一种可变的相关矩阵，该矩阵被用来 
提取公因子而不是主成分，如表 6. 1所示。 


*6.1 主成分分析和共同因子分析的相关矩阵 



注：左边的相关矩阵采用的是主成分分析，保留的单无在主对角线上。右边的相 
关矩阵采用的是共同因子分析•在主对角钱上的是共同的估计而不是单元. 


用共同的估计取代联合是区分共同因子提取和主成分提取的 
惟一计算差别。 

“原因与结果”这个问题是怎么一回事呢？这是不是我们在分 
析观察到的題项分数时同时获得因子和成分的一种情形呢？正 
是。正如共同的估计所表明的那样，题项之间在经验上的关系最 
终形成公因子的基础 a 当然，成分也同样 如此。 因此，在计 算上， 
两者都以实验数据为基础。而且•大多数分析者把使成分和共同 
因子概念化作为理解题项集潜在变董的方法。也就是说，成分和 
因子这二者通常被认为揭示了在题项集上所观察到的分数的原 
因。事实上，成分分析和因素分析通常可交换 使用。 大多数情况 
下，题项共同拥有一些有意义的东西，不同的方法得到的是同样的 
结论。因此，虽然这两者间有技术上的相似点和不同点，但是二者 
间的不同常常被忽略了。 

不过，主要不同的一点是：成分和因子在解释变异的性质上是 
不同的。前者说明了原始变量之中总变异的某一特定部分，而后 
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者则说明了原始变量间共有的或公共的变异，如果戚小相关矩阵 
的对角值，那么，像提取共同因子时所做的那样，变异的比例表达 
式的分子分母也会随之减小，但是分母减小的程度更大，因为这 
涉及相关变量的特殊计算 6 结果，由一系列对比性成分和因子所 
"解释的变量比例”是不等价的或在概念上不等同。因子解释有限 
的方差中(例如 ，共同 方差〕较大的比例，而成分解释总方差的较小 
的比例 a 当讨论因素分析的结果，报吿因子所解释的方差比例时， 
弄清楚分析的类型（主成分或共同因子），从而弄清楚被解释的方 
差类别(公共的或全 部的) 是很关键的。 

两种分析类型间值得注意的另一不同是:在一些统计包里，提 
取主因子而不是成分而得到的结果将明显是毫无意义的。在两种 
分析中，被解释的方差的累积量会随着每个连续因子或成分的提 
取而增长 # 有共同因子存在，这个比例通常超过1.0,并且，当考虑 
到连续因子时，这个比例会持续增加，之后，似有魔法般地，当第走 
个(即，最后可能）因子被提取时，又正好回到 1.0. 这虽然看起来 
奇怪，但它仅是一种手工计算方法，是可以被忽略的。如杲数据分 
析者用理性的标准来决定提取多少因子，那么，所选择的数目通常 
会超过在抽取序列中这种异常现象出现的那一点。但是，用已选 
择的因子数目来有效迪解释原始题项中的所有公共方差 〈例 如， 
100%〕是可能的。 


验证性因素分析 


另一个因素分析方法的差别在于是探索性 （ explorawiy ) 还是 
验证性 ( conKrmatory )。 这些术语原本是指数据分析的目的而不 
是计算方法。因此，同样的分析可能用相同的題项集去确定它们 
潜在的结构是什么(探索〉或者是基于理论或先前的分析结果去确 
定一个预先偎定的关系模型是否正确(验证〉，随着使用頻隼的增 
加，这些术语现在被用于区分不同种类的分析工具而不是用于区 
分不同的研究对象。当人们在使用验证性因素分析这一术语时， 
他们通常谏论的是基于平衡结构模型 （structural equation model - 
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itig ， SEM > 的方法。即使这些方法应该用于验证性的而不是探索 
性的情况，但标准的因素分析技术能够用于这两种情况。因此•验 
证性并不必然是以 SEM 为基础的。 

然而，比起传统的因素分析方法，以 SEM 为基础的方法在某 
些情况下能够表现出实实在在的好处。之所以表现出这些好处， 
是因为 SEM 是一种非常灵活的结构。传统的因素分析方法要求 
的条件，比如题项之间的误差相互独立，在 SEM 的使用中，可以有 
选择性地进行改变。当然，传统的因素分析方法对数据分析者的 
大部分限制是要求因子间相关或者相互完全独立。但如果理论表 
明有这样的一种模型存在的话*以 SEM 为基础的方法能够把相关 
和不相关的因素混合起来研究， 

就像先前所述的那样，以 SEM 为基础的方法也能够为评定实 
际数据在多大程度上符合特定的模型提供一种统计的标准。恰当 
地使用它*它便是一种很有用的工具。然而•有时它会导致过多的 
因素分析。提取更多的因子经常会提高一个模型的适用性。提供 
一个严格的统计意义上的标准会模糊这样一个事实：一些统计上 
显著的因子只解释了非常小比例的变异。尤其是在童表编制的早 
期,这可能与研究者的目的相反，研究者关心的是找到极少量包含 
大多数信息的变异的因子，而不是能解释大量可能变异的因子。 

以 SEM 为基础的方法是用共同的方式测试多个模型并比较 
它们对数据的适合程度，这是一把双刃剑 # 再次重申，如果谨慎地 
使用 SEM , 这能够成为有价值的工具。反之，如果使用不慎，这就 
会出现几乎没有什么理论意义但却更具统计意义的模型9例如， 
取消关于误差相互之间没有相关这一限制，也许槙型产生不了多 
大的价值，但是这个模型也许会在统计方面超过有限制性的模型。 
—位研究者也许决定忽视这些细小的相关以利于更筒单的棋型， 
而另一个研究者则会因为统计标准而拒绝更为简洁的选择。另一 
个例子是；一个把两个相互区别的但是存在高相关的因子 （ 也许就 
像责任和 信任〉 分开的模型可能比把这两者联系起来的模型更具 
适应性。如果这两者的相关非常高而把这两者分开就武断了。例 
如，假设同一结构的两个指标之间的相关为 0. 85,通常这被认为是 
这两者等值的好证据。但是，把相关为 0.85 的两个因素分开的模 
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型比把这两者合为单一的因素的模型能更好地拟合数据。 

这些评论并不是打算说以 SEM 为基础的验证性因素分析方 
法不好。这些方法的出现为理解不同的*置问题做出了大量贡 
献 8 然而，我发现这些方法内在的灵活性有很大的做出错误决定 
的可能•尤其是数据分析者对这些方法不熟悉的时候。除了主成 
分分析方法以外 （这里 的因子是题项的线性联结）•没有因素分析 
方法能产生惟一的正确解决方法。这些方法只能产生似是而非的 
解决办法，这类方法有很多。不能保证在统计意义上胜过简单方 
法的那些复杂方法在反映真实时更为精确。它可能是更精确也可 
能不是 s 所有的因素分析方法的共识是需要作出最佳决定。分析 
只是指导决策过程并为决策提供证据。在我看来，它们不应该代 
替调查者做出决定。同样，准褲地在企式的因素分析的书面报告 
中推述决策、统计或其他的检査是非常重要的9 

最后需要注意的一点是，某些领域的研究者（例如，人格研究> 
认为•在阐明模型的良好适应性方面•传统的因素方法比采用统计 
标准的方法具有更强大的解释性 a 例如，索塞尔和哥德伯格 （ Sau ¬ 
cier Goldberg , 1996) 认为，因为解释性的因素分析提供了比验 
证性因素分析更严格的重复 * 前者比后者更为常用 。” （ P .35) — 个 
推论是：如果在不同情境中提取不同的个体样本数据，那么使用解 
释性方法必然产生同样的因素分析结果。虽然这些结果重复出现 
的可能性非常小。记住•在这种情况下，使用以 SEM 为基础的方 
法，数据分析者需要预测变量和能够与实验数据拟合的计算机程 
序得出的结果之间的关系9换句话说，实验数据是否与模型拟合 
强有力地预测了计算机程序将要得到的结果。相反地，在不能作 
出预测的情况下，重新考虑先前的因素结构并反复进行解释性的 
分析，能获得对实验结果具有强的说眼力的解 

量表编制中因素分析的使用 

下面的例子将使在本章中所讨论的一些榱念更加具体。我与 
我的同亊 （ DeVellU，Devcllist Blanchard ^ Klotz ^ Luchok i & Voyce ， 
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1993) 编制了一个问卷来评估父母对于影响他们孩子健康的人和 
事的看法。虽然这一量表总共有30项并且评估了这些看法的几 
个方面 ，但 是我只讨论其中的12项。 

A . 我能够影吻我孩子的幸福感 e 

B . 我的孩子是否能避免伤害只是运气问题6 

C . 在决定我孩子的健康状况方面，运气起着重要 
作用9 

D . 我能在除止我的孩子受到伤害方面起很大作用。 

E . 我能在除止我的孩子生病方面起很大作用。 

F . 我的孩子是否能避免生病只是运气问题。 

G . 我与孩子在家里做的事会成为我的孩子幸福感 
的重要 方面。 

H . 我的孩子的安全依赖于我， 

I . 我能做很多事帮助我的孩子活得更好。 

J . 我的孩子的健康是一大笔财富 9 

K . 我能散根多事帮助我的孩子强壮、健康。 

L - 我的孩子是否健康或生病只是运气。 

我们一共对396位父母进行了调査并对结果进行了因素分 
析 . 因素分析的第一个步骤是决定这些題项中包含了多少个因 
子。 SAS 用来进行因素分析，点状图是必要的 # SAS 打印出来的 
点状图形式，如图 6.10 所示。注意，12个因子<与題项数相同）都 
被标明了。而且，因素分析中有两个因子被定位于点状图上边位 
置，其余的沿着点状图的底端分布 d 这就有力地证明了这两个因 
子可以说明这些项之间的许多变异。 

在决定有多少因子需要保留后，我们重新指定了两个因子并 
进行了方差最大 ( variraax ) 旋转(直 角的入 如果我们无法接近筒单 
结构的话，我们本来或许可以进行斜交旋转来提高題项与因子之 
间的适合度 a 然而，在这个情况下，直角旋转产生了具有很大意义 
的題项集和强有力的、明确的负荷。 

这可以从下而的因素负荷表中明显地看出，在这个表中每一 
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败字 


围 6. io 已迭 题项的 S 棄分析 的碎石 B 


排中都包含了一个给定的题项在两个因子方面的负荷。在 SAS 中 
可以进行的另一个选择是重新排列表中的题项，即那些在每一个 
因子上有着高负荷的题项可以被分在一组。 

在表 6.2 中，因素负荷大于 0.5 的被写成黑体 d 每个因子由负 
荷最重的题项来定义（例如，那些黑体）。通过参照这些题项的背 
景，能辨别每个因子表示的潜在变量的性质。在这个例子中，所有 
在因子1上有强的负荷的题项关心的是父母是否在儿童获得安全 
和健康方面具有影响。另一方面，主要负荷集中在因子2上的题 
项，关心的是运气或命运对儿童健康的影响。 



表 6. 2 两 B 子上的麗项负荷 


项目1 
项目 K 
项目 D 
项0 E 
项目 G 
项目 A 
项 H H 
项 B F 
项3 J 
项 H e 
项目 L 
项目 B 


已旋特的3 子棋式 


S 子1 因子2 


.7 拥 12 

一 0. 22093 

.74807 

-0. 18546 

.7im 

一 0. 02282 

. 65897 

-0.15802 

.65814 

0. 01909 

• S97A9 

-0. 14053 

i. 51857 

-0.07419 

09218 

0.82181 

k 10873 

0.78587 

>• 07773 

0. 75370 

). 17298 

0. 73783 

>• H609 

0.63583 


这两个同质的题项组能被进一步检验。例如•能计算每组的《 


系数。利用 SAS 计算的每组《系数的结杲在表6_3中。 

叫个量表具有可接受的 a 信度系数。注意 ， SAS 程序能计算 
非标准和标准题项的 Q 系数。后一种计算等于是使用以相关为基 
础的 a 系数公式，对于这两个量表，两种计算 a 系数的方法得出了 
十分相似的值。注意，对量表采说，减少題项也不能增加 a 系数。 
减少一个题项，例如，在量表1中减少 H 題项和在量表2中减少 B 
fi 项,减少題项后的 a 系数几乎和整个量表获得的 a 系数一祥高。 
当然，保留这些題项能提供一点额外保障，因为它能使一个新的量 
表的信度不会下降到低于可接受的水平，并且不会在实质上增加 
量表的长度 a 
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表 6. 3 对两个不 PI 的题项系列，所有題项和 k - l 題項联合休的 a 系败 



克龙巴# (2 系教 



对原始交量 ：(X 796472 对标准化的 交量: CL 802006 


删去 的定量 

康始交量 

标准化交量 

与总体的相关度 

a 

与总体的相关度 

a 

项 S I 

0. 675583 

0. 741489 

0. 676138 

0. 749666 

项目 K 

0. 646645 

0. 748916 

0.644648 

0. 755695 

项目 E 

0. 545751 

0. 770329 

0.535924 

0.775939 

项目 D 

0. 562833 

0. 763252 

0. 572530 

0.769222 

项目 G 

0. 466433 

0. 782509 

0.474390 

0. 787007 

项目 H 

0. 409650 

0. 793925 

0. 404512 

0. 799245 

项目 A 

0. 437088 

0. 785718 

0. 440404 

0. 793003 

对康始定量 ,0.811162 对标准化的交量 :0. 811781 


删去 的定量 

康始变量 

标准化£董 

与总体的相关度 

a 

与总体的相关度 

a 

项 S F 

0. 684085 

0. 74&385 

0 ,682663 

0. 749534 

项 S C 

0. 596210 


0. 594180 

0. 776819 

项目 J 

0. 636829 

0 . 762590 

0. 639360 

0. 763036 

项目 L 

0. 593667 

0.776669 

0, 592234 

0. 777405 

项目 B 

0. 491460 

0. 806544 

0. 493448 

0. 806449 


通常，在编制量表时，对于可以进行因素分析的量表来说，可 
以釆用一些说明来对量表的应用过程中可能发生的错误进行预 
防> 例如，利用一个独立样本来重沏量表的信度是十分重要的。 
事实上，在一个独立的样本上重测整个因素分析过程，以阐明所获 
得的结果不是一个偶然出现的结果，这可能是有用的。 
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样本大小 


在原始分析中，样本大小至少部分地决定了因素结构重沏的 
可能性。在通常情况下，在大祥本因素分析中出现的因子模式将 
比在小祥本中出现的因子模式稳定> 不可避免地，问题出现了， 
“多大才算是足够大这很难回答 ( MacCallum , Widaman , zhang , 
& h < mg ,1999) a 和许多其他的统计程序一样 * 被试的相对数量和 
绝对数量都需要考虑，但诸如题项共同因子等因子仍起作用 （ Mac - 
Callum et aL ，: 1999)。 需要提取因子的题项数目越大并且期望的 
因子越多，分析中包含的被试数量就越大 。 基于这样的事实，问題 
的关键是，寻找一个被试与题项的标准比例。当然，如果得到的样 
本足够大，被试与样本的比例将减少。对于一个有20个題项的因 
素分析来说，100个被试可能太少,但对于90个題项的因素分析来 
说,400个被试可能足够了。廷斯雷 ( Tinsley ,19 S 7) 主张大约每个 
題项有5〜10个被试这个比例，最多大约300个被试> 他们主张， 
当样本大到300,这个比例将减少。在同一论文中，他引用了其他 
规則，根据卡蒙瑞 ( Comrey ,1973), 100个被试太少，200个被试比 
较好，300个被试恰好，500个被试十分好，1 000个被试极好 ，卡 
蒙瑞 (1988) 声称200个被试的样本大小对于不超过扣个題项的大 
多数一般因素分析来说是足 够的， 虽然样本大小和因素分析的有 
效性之间的关系比这些简略表示的规则复杂得多，但在大多数倩 
况下仍能很好地为研究者服务。 

在量表编制中釆用较为适度的样本(例如，150个被试)来进行 
因素分析可能不 常见。 当然，在因素分析中采用较大的样本来增 
加结论的推广性，这一观点是很好接受的。当然，在一个分开的样 
本上重测因素分析的解决方案可能是阐明其推广性的最好方法 a 
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结论 


因素分析是量表编制中的一个基本工具 • 它允许数据分析者 
决定支持题项集的潜在变量的数目并正确地执行计算克龙巴赫 
( Cronbach ) a 系数的程序。另外•它也能让我们洞悉支撑我们題项 
的潜在变量的实质 。 
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项目反应理论概述 


孩 PP 性 (fake positive) 
项 0 時征*线 
IRT 的复杂性 
何时使用 [R 丁 
结论 



项目反应理论 （ IRT，item response theory) 是 经典渊 量理论 
(CMT*classical measurement theory 〉 的一种替代方法 ，CMT 也叫 
经典测验理论 (CTT*classical test theory 〉。 1RT 近年来已经受到 
越来越多的关注（参看 Hambleton* Swaminathan, Rogers 9 
1991； Embretson Reise ， 2000 )。 经典测量理论的基本思想是 
观察分数是被试的真实分数加上误差的结果 。 误差并不作进一步 
的区分，比如通过时间、背最或题项来进一步区分 • 相反，所有误 
差都用误差这一单独的术语来表示> IRT 方法则更好地区分了误 
差，尤其是需要考虑题项特征的时候。 

尽管 IRT 主要应用于能力测验（诸如学业傾向测验），但在其 
他的领域 , IRT 也得到了广泛应用，经典测量理论主要关心组合， 
更具体地说，是暈表的组合。但 IRT 主要集中于每个頚项和它们 
的特征，在 CMT 中，题项在某种意义上是得到结果的途径。也就 
是说，它们是同一潜在现象大致相等的指标 * 它们通过聚合为一个 
量表来获取力量。一个量表的信度靠冗余的題项来 增加。 在 IRT 
中，每个题项与研究的变量（通常也称作属性）的关系都会得到评 
估。信度不是靠冗余题项增加，而是靠确定更好的題项来提高。 
更多基于 IRT 的题项通常会根据可被区分的属性联合体而增加节 
点数目，但并不能按照我们先前设想的方式增加信度。例如，给一 
个数学测验增加更多的难题只能向上扩大它的使用范围，而不一 
定对它的内部一致性有任何影响。在 CMT 中，编制量表的要求是 
題项具有共同的因果关系，因而彼此相关。而且*一个暈表只能有 
单一的攢在维度。 IRT 也具有这一特征•即将被组合在一起的理 
项必须共享单一的潜变量 • 因此， CMT 題项是冗长的，实际上这 
些冗余題项是量表信度的重要部分。然而，尽管 CMT 題项被编制 
的彼此很相似，并且这些題项以同样的方式来反映潜变量,编制的 
IRT 題项却反映了属性的不同程度或水平。精度不仅靠聚合起来 
的冗余厘项来提高，更要靠具有特殊的可论证特征的非冗余理项 
来提高。我们将在本章的稍后部分讨论这些特征。 

因为项目反应理论源自能力脚验，能力測验包含的題项通常 
和该領域的内容 相关。 也因为能力测验的題项通常以正确或不正 
确来分级(即使它们的最初形式涉及两个以上的反应选项 ），1 RT 
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的经典应用和实例涉及 的題项 都呈现出两种状态中的一种（例如， 
“通过”或“失败”）。尽管没有理由说明为什么源自该理论的方法 
不应扩展到（事实上他们已经做了）具有其他反应形式（例如利克 
尔特量表)并适合其他内容领域的題项，但是通过对这种类型题项 
的讨论发现， IRT 是最简单的。 

IRT 的目标是使研究者能够证实题项的某些特征，这些題项 
与完成它们的人 无关。 这与物理测验相似，物理籣验能够评估一 
个物体的一种馬性（如长度或重量）而不考虑它的特殊性质。例 
如，无论称什么,20磅都表示同样的意义 # 这样，一个普通的称就 
能测出关于一个物体某一特殊属性的信息（如重暈），而不管被称 
量物体的本质如何 a IRT 期望用问卷题项达到同样的目的。 

IRT 事实上更像一种模型而不是把一套单独的程序特殊化的 
理论。区分不同 IRT 模型的一种重要方法是看它们考虑的題项参 
数的数目。近年来一种常见的模型是三参数模型.奄不奇怪，该 
模型专 注于® 项表现的三个方面。这 就是® 项的“难度”、“区分 
度”和“灵敏度”。 1 RT 家族中一个很早但仍然流行的模型是拉希 
模型 （Rascb Modelings Rase h , I 960; Wright ，1999). 该模型只测 

量难度参数。 


项目难度 （item difficulty ) 

尽管这个术语明显是从能力测验沿袭下来的，但它所代表的 
概念却有更广泛的应用。项目难度指的是被测量的属性的水平, 
该属性与从"失败”到“通过”该题项的转換相联系。我们大多数人 
都看过描飨狂欢节的老电影或表滇某种力量技艺的娱乐园。测量 
装置包括一个使重物沿其滑动的竖直滑轨，在滑轨的頂端是一个 
响铃。最初，重物在滑轨的底部，并放在一种用作跷跷板的木板的 
一端。“被试”用一个大 木锤敲 击跷跷板与重物相对的一端，这样 
就使重物沿滑轨向上弹起。他们的目的是用足够的力来推动重 
物，使其撞击响铃并敲响它。相对于我们的目的，我们可以把整个 
装置想象 成“®项' 
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项目难度是“被试”为了“通过”®项（如敲响 响铃) 必须拥有的 
力量总和(更准确地说是他或她必须传递的力）。显然，可以构造 
不同难度水平的®项(如，更难的®项具有更长的滑轨或更重的重 
物）。然而，确定一个特殊装置的校准难度应该是可能的，该装置 
独立于偶然挥动木锤的人的任何特征。 

因为这个“题项”是一个物理实体，所以以合理的精度确定要 
使铃响需要多少力是相当容晷的事（忽略敲击时相对于敲击位置 
的细镦差别）。所以狂欢节的组织者可以敢置一个10磅或100磅 
的装置在玩游戏的人中得到一个髙或低的通过率，每个装置可能 
适合于不同的人群，如儿童参加学校展览会，成人参加健身训 
练营。 

我们可以用相似的方法来表现问卷®项的特征。例如，设想 
一个测量抑郁的®项，可以把®项编制的相对“简单”或相对“容 
易”。首先，只需要通过适当数量的具有抑郁特征的題项（一星期 
至少经历一次特殊感情可能被定义为评价回答者的指标）。例如， 
诸如“我对我不得不做的一切感到沮丧”这样 的顳项 很可能在这个 
意义上是“简单的”。但是个人一周一次或多次具有这种感觉的可 
能性不会取决于被提问者是谁。例如，如果我们向临床抑郁患者 
提出该问®，我们很可能会发现他们比普通人群具有更大的样本 
比例“通过”该®项^确定项目难度的目标訧是在绝对意义上建立 
通过®项所要求的特征的多少。如果能够做到这些，那么一个人 
通过®项訧具有了关于抑郁水平的稳定的意义，而与这个人是谁 
或者所研究样本的平均抑郁水平无关。换句话说*在描绘一个人 
的特征时不仅仅参照一个特殊样本的标准而且还参照独立于任何 
特殊样本的衡量标准。 

项目区分度 (item discrimination ) 

irt 关心的第二个参数是®项把一个反应按“通过”或“失败” 
明确分类的程度。换句话说，对一个人是否真正通过或失败区分 
的越明白，问卷®项的区分度訧越髙。用我们的狂欢节响铃类比， 



图 7.1 — 个 fl 定的通过使用足够的力用*子敲打衬埜 
使钤《的装置来 M 置强度 


有可能在偶然的情况下，重物没有接触到响铃，但铃却响了。观察 
者所认为的响铃是否真的响了也可能是不一致的。有人可能听到 
一个微小的响声而有人可能什么也没听见。当用力推动重物使其 
触及响铃但没有使所有人都同意这是一个清晰的铃声时，该装置 
则提供了一个模棱两可的信息。从另一个角度看待这种模糊性 
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( Ambiguity ), 用同样的力敲打多次也可能使观察者在某一时刻认 
为铃响了而另一时刻又认为铃没响。一个稍 撖大一 点的力将持续 
产生一个清晰的响铃声，而稍微小一点的力却可能使人相信铃没 
有响 9 所以该装置的模棱两可的范围应该被减少。一个替代装置 
可能具有不同搡作方式并且产生更少的模糊结果。例如，在重物 
撞击响铃的同时闭合一个延迟电路•使一盏灯发光并保持光亮直 
到重新开始测试。如果设置的好，这样的装置很可能在一个模糊 
相当小的范围上得到一个一致的结果，这样将会比标准装置有更 
好的区分度 。 相反，如果一个装置根本没有响铃，要求现察者看见 
重物超过 紧挨在 滑轨上的预先标记的一根线就举手来代替，这样 
的装置可能得到更模糊的结果，并且区分度也更差，所以，一个具 
有良好区分度的装置或题项•对于所研究的现象来讲，可能产生模 
棱两可的结果的范围只占很小一部分•一个低区分度的装置或题 
项具有更大的模糊区间。 


假阳性 （false positive) 


1 R 丁的第三个参数是假阳性> 假阳性是指一个反应显示某些 
待征或属性的水平存在而实际上它不存在。这里，我们需要再做 
-次狂欢节类比9你可能曾经见过这样的小屋•在一个水箱上面， 
一个人坐在一个塑胶玻璃保护屏后的一个平台上，平台连接在一 
t 杠杆上，杠杆的一端有一个靶子。 

比赛者向靶子投掷棒球，如果击中•就会使平台坍塌，并且使 
坐在平台上的人落人他或她身下的水箱中。我们可以把这个装置 
想象为测量投掷准确性的一个“题项”，把平台上的人落入水箱中 
作为题项的“通过”（现在你应该能够措述装置的变化怎样增加或 
降低装置的难度和区分度）。通过这种特殊的装置，我们可以想象 
“假阳性’’是怎样出现的，也就是说，一个实际上没有能力的被试是 
怎样使坐在水箱上面的人浸没而获得一个“通过”分数的。一种方 
法可能是被试胡乱的扔球但球碰巧击中靶子（毕竞，它必须要击中 
某处〉，或者另一种可能，该装置可能发生故障，平台自动坍塌。 
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围 7.2 — 个 通过握 击目标球使平台下*并使坐在上面的人 
陷入有 水的容 B 来精磽测置投拥运动的假想装 S 

在这些情形下，玩家将会因为某些不相关的环境因素而不是能力 
因素而通过该题项。这样，即使一个人在投掷准确性上很差或没 
有能力，也可能通过该测验。在能力测验中尽管不是真正知道答 
案，但能成功的猜测正确反应，这种情形非常普遍，它的结果就是 
“假阳性”(在猜测或其他类型的假阳性几率很小的测验中，例如用 
天平测重量,通常二参数模型就足够了八 

这三个题项参数中的每一个——难度、区分度和假阳性^— 
与测量误差都有相当明显的 关系。 如果①一个题項的难度不合 
适，②在通过和失败之间的模糊区间太大，或者③一个特征不存在 
而題项却表明它存在，那么该题项就有错误的倾向。 IRT 为量化 
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题项的这三方面的性能并且为在已知背景下选择性能好的®项提 
供了一种 方法。 


項目特怔曲线 

这种量化结果随后被概括为一种项目特征曲线 （ ICC , item 
characteristic curve ) 的形式，它以图表的形式反映出题项的特征 9 
通常 ICC 大致呈 S 型，并且曲线的不同部分揭示了关于所研究的3 
个参数中每一个参数的信息。 

图 7. 3展示了 ICC 的外形特征。 X 轴代表所测量的特征或属 
性的强度（例如，知识、力量、准确性、压力、社会期望或者可能任何 
其他可测量的现象）。 Y 轴代表问题的通过率，它是以观察分数中 
失败和通过的比例为基础而得到的。如果我们比较代表两个题项 
的曲线图，理解怎样用 ICC 来评估題项的质量实际上非常简单。 




图 7. 4通过两条曲线阐明项目难度，注意，各个翅项达到 
50%的通过概率的点是不同的。对浅色的曲线，该点更靠右边. 
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难度 



那就是说，对个体来说,50%的机会通过浅色线所代表的题项比通 
过深色线所代表的题项要具有更商的 S 性特征蚶。使用这个标 
准，浅色线所代表的题项就更难。既然这样，难度就不是一个主观 
判断,而是对 X 轴上对应于曲线通过 Y 轴上 0. 50概率值的真实 
描述。 

图 7.5 说明了我们怎样使用同样两条 ICC 曲线来评估区分 
度。与深色曲线相应的题项在50%这一通过点比浅色曲线所代表 
的题项具有更陡的倾斜度。它的结果就是在深色曲线所代表的题 
项中更小的属性增量就会使明显失败的分数变为明显通过的分 
数。所以，该题项的更陡的曲线表明，对应的 X 轴上的模楢分数的 
范围比其他题项的模榭分数的范围更小。这样，在区分失败与通 
过的人时，深色线所表示题项比浅色线所表示的题项更有效。 

最后，在图 7. 6中，我们可以看到，即使当被试的能力（或无论 
被试要测的什么特征）实际为0时，题项曲线仍倾向于向通过分数 
弯曲。正像你可能猜测的一样,这是由 ICC 曲线与 Y 轴的交点决 
定的。对深色曲线所表示题项来说，截距接近于零。这样，如果一 
个人完全缺乏问题中的属性，他或她通过该题项的概率很小。对 
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区分度 



强度属性 


m 7.5 对所测属性具有不同区分度的两个題项的 ICC 的例子 


假阳性 



强度属性 


*7.6 不同俚阳性反应率的两个题项的 ICC 的例子 
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浅色曲线所表示的题项来说，有一个概率（大约15%〉使某些没有 
能力的人也能通过題项，这样就无法根据问題题项把他们与那些 
具有很高能力的人相区别。对应的图指出了两个題项在 Y 轴截距 
的差别——再次得出深色线所表示的题项要更好这个结论。 

在理论上，你可以用 IRT 为題项集中的每一个题项建立参数。 
然后根据计划应用的细节，选出最适宜的题项用来解决手边的测 
暈问题 6 例如，“简单”頚项可以集中起来用来测量那些能力水平 
相对较低的被试,“难”的題项可以集中起来测量能力水平较高的 
被试。与此相类似的是，在一个针对儿童的集市或展览会上使用 
10磅的响铃装置而在成人运动员训练营中使用100磅的装置。使 
用不恰当的题项——就像使用不恰当的响铃装置那样——会导致 
挫折(如果任务太难）或者缺乏积极性（如果任务太筒单）。同样, 
如果编制的测量用来作为一个重要决定的基础，那么缩小每个題 
项的模糊区间和假阳性的可能性也可能是非常吸引人的。 

IRT 方法的突出优势是把我们的注意引向题项表现的三个重要 
方面(以现在流行的三参数形式）。用源于经典测量理论的方法(例 
如,通过因素分析或计算 a 系数)，我们可以知道一个 S 项表现的好 
还是不好，但是我们不可能对它的缺陷的本质有一个清楚的理解 • 
相比之下， IRT 可以帮我们更明确的评价一个题项的长处和短处。 


IRT 的复杂性 


虽然 1 RT 是十分有吸引力的，但 IRT 不能快速解决測量问 
題 6 像传统的 测量理 论一样 , IRT 不能决定題项的特征，只是量化 
这些特征。就这项技术本身而言，它允许研究者评价題项的绩效， 
但不能导致一个人直接写出良好的題项或导致较差结构的题项突 
然工作的良好，此外，当研究者使用基于 IRT 的方法时，评价过程 
可能会令人气馁。经典的测量通常采用更少有差别且更易处理的 
槪念化的误差源，牺牲精确性来换取简单性》 IRT 做了相反的选 
择，获得精确性但牺牲了简单性*这样 , IRT 方法的要求是很高的 
并且很大程度上被限制在专家的范围内使用*直到2002年夏天， 
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由于没有基于 Windows 的 IRT 分析软件,大多数 IRT 分析软件不 
得不在没有图形界面、几乎被遗忘的 DOS 操作系统下运行 | 而 
且，这些方法的应用还要求具备相当程度的专业判断。这些方法 
仍然处在一个积极发展的阶段，随着新问题的出现，新的解决办法 
也将出现。 

】 RT 的一个主要目 标是： 要确信对题项特征的评价独立于所 
研究的样本特征，为了达到这一目的，必须证明这些特征在各个方 
面,包括能力水平，在不同的样本中是一致的。題项特征不与独立 
的样本特征，如性别、年龄或其他与测量不相关的变量相联系，这 
是很重要的。题项分数应该只有在所研究的属性变化时才变化， 
而不是因为任何其他变量的改变而变化。所以，例如，如果我们假 
定拼写能力与性别无关，那么我们必须证明具有相同能力的男孩 
和女孩通过題项的概率相同。如果这不是真的，那么除了拼写能 
力以外就是性别或其他某种因素在影响题项。同样，对经典理论 
来说，在一个集合中被检验的题项（如编制一个工具来测量同一变 
量)必须共享惟一的潜变董。 

这些对人和題项的要求指出了另一个棘手的问題 ，一 个工具 
编制者如何在考虑到 ICC 的情况下确定属性的真实水平（通常称 
作0)。回到我们的木锤和响铃类比，为了确定在一个特殊装置中 
被试要用多少力量才能敲响铃，你怎样定义强度？在多数情况下， 
如果属性的真实水平在某种便于管理的形式中是可知的，那么就 
没有必要再编制一个新的測量工具。在理论上，给出大量人群对 
一组固定题项的反应，计算机程序应该能够找出题项与个人特征 
之间的差别。再回到有关狂欢节的类比（响铃装置和浸压机器）， 
如果有足够的人使用每种类型的两个装置，就有可能确定每种类 
型的哪个样本更难，并且也可判断个体在这两种任务中的技能。 
在实践中，常常有一个来回迭代的过程，先实施题项来测量特殊被 
试的属性水平，然后把对该题项的估计作为指标来确定其他题项 
的特征，当在此基础上确定了最好的题项时•它们就可以在下一 
轮题项选择中用来获得改良的个体属性水平等等。有些方法依籟 
于明确的锚定题项 （Anchoring Items ) ，这些题项在各种群体中表 
现稳定，并且可以用作校准其他题项的基础。给出这些过程的本 
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质，就不难看出为什么 IRT 非常受编制 GRE 考试这样的商业能力 
测验机构的青睐了。持续的实施和评价为找到那些虽然其他被试 
特征在大范围的变化但仍能保持特征稳定的题项提供了良好的 


基础。 


何时使用 IRT 


有两种特殊的情形使 IRT 方法的优点显得非常重要: 
項目等级 


首先涉及的是那些本来就是等级的题项。回忆一下，在经典 
理论中，我们假定题项是潜变量的大致相同的指标。我们假设每 
个题项对所研究现象的灵敏度大致相等。这些假设在评价许多个 
人特征时很合适，如态度、信仰和倩绪状态 • 在这时，研究者要测 
量的变量是一个连续体，并且题项也是据此而构造的> 身体能力 
的测量通常与此形式相一致。例如，一个测量灵活性的测验，用 
“是”或“否”作为反应选项，可能包含这样的题项，该題项评价一个 
被试①能独立行走，②只能借助辅助装置行走，或③不能行走。这 
些题项是不连续的。每个都代表了所研究属性的一个不同的水 
平。因此，在这种情况下 , IRT 测暈模型可能比经典模型更合适 • 

注意 ，甄项 本来是连续的，但应用分级反应来进行选择的情况 
与此不同。例如，一个是两个表达大致相等抑郁程度的题项，一个 
是带有 同意一 不同意反应的6点量表。既然这样，你可能期望对 
同一个体来说，所选择的反应选項在所有题项上都保持一致。用 
我们上面提到的推述灵活性的那种等级题项就不行。实际上，对 
一个題项回答“是”（如不能行走”）将会与对另一个回答“是 w (如 
“能独立行走”）不一致。因为每个題项自身变成了属性的一个特 
殊水平，类似于瑟斯顿或加特曼童表的形式出现，对此，我在第5 
章已做过讨论， 

具有等级題项的 IRT 的另一个优点是建立一个由与一个特殊 
的能力范围相协调的每个题项组成的题项库是可能的。那么我们 
就可以在身边情形的应用中选择题项。这使测验实施者可以集中 
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注意于愴当的特征水平，在合适的能力范围内选择题项，减少管理 
大量域外 (Out-of-range〉 題项的需要。例如，如果某些題项两两间 
具有连续的等级关系，测验实施者可以选择一个对所测特征的水 
平要求相对较低的®项，也可以选择另一个要求较高水平的題项。 
这种特殊选择基于对被试能力水平的最初评估或被试对最初的探 
测題项的回答情况。如果一个被试通过了简单題项而没有通过困 
难題项，那么只有难度在两者之间的題项需要进一步考虑。这显 
然比考虑从最简单到最难的所有題项要方便得多。因为 IRT 能对 
題项和能力水平之间的匹配进行调整，因而这种管理模式是灵活 
的 (Jenkinson , Fitzpatrick, Garratt. Peto，Stewart-Brown♦ 

2001)。 通常，这种題项管理模式是计算机化，计算机自适应测验 
(CAT; Van der Linden &. Glas, 2000) 就是指它 # 

由于认知能力的显著差异，诸如态度这样的心理变量不像健 
康状态这样的生理变量那样经常使用 IRT 方法来測董。然而，有 
些心理变量能很好的符合 1RT 模型。例如，自我效能通常用等级 
題项来测量，向被试呈现越来越具有挑战性的任务或情境，用来对 
測量中的轻松或信心进行评价 (DeveUis & Devellts, 2001)。这似 
乎是一个 IRT 具有潜在优势的情境。值得注意的是，尽管等级題 
项的结构和结果与经典测置假设不一致，基于经典模型的对自我 
效能(和其他变量)的測量似乎运作得相当好。 

不同題項的功能 

IRT 特别有优势的第二种情形是在区分组群特征和題项特征 
的差异时。这样的研究注重不同題项的功能，或叫 DIF， 也就是说， 
一个®项在不同的被试群体中会产生不同的反应倾向，而这些被 
试实际上拥有我们所要评价的同样的特征.例如，如果一个关于 
抑郁的测验在两个不同年龄组中显示出差异，那可能是因为两个 
原因中的一个或两个。也就是说，年长的和年轻的人在抑郁上可 
能存在真实的差异，或者当年长的和年轻的人在抑郁水平相似时 
他们对特定題项的反应可能存在差异。为了直接比较两个组，我 
们必须假设在测量时两个组的反应相等并且任何观察到的变异只 
能归因于所研究的属性。这种假设通常是合理的，当群组在某些 
方面，如文化或年龄，存在差异，而在 題项的 解释中这种差异又能 
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可能合理地导致组间变异时 * 就要求实验验证。 IRT 在这种情况 
下是一种强大的工具。尽管用 IRT 方法在群体(如种族群体〉中收 
集广泛的数据是回难的•但这些方法为评价那些广泛观察到的差 
异是由于®项表现还是由于组同差异提供了更高级的 工具。 经典 
方法也许能部分完成这一功能（如通过记录群体中明显不同的因 
素模式），但可能不会发现更细撖的过程 ◊ 尽管基于经典模型与基 
于 IRT 模型的结论在特定情境中是否存在分歧是一个经验的间 
題 ，但是想象这种情况的出理并不困难。我怀疑将越来越多 
地对不同社会的相关个体进行比较， 

值得注意的是，在许多实际问®的评估中有既需要等级®项 
又需要 DIF 这样的潜在 机会。 教育评估就是一个（当然不是惟一 
的一个) E 经应用〗 RT 的领域9健康结果评估是另一个特别适合 
的例子。研究的目的常常是分等级的 • 例如，经过一个医疗程序 • 
一个人经历多少痛苦、伤残或社会孤立是沿连续体变化的，并且个 
别題项可能对应于那些连续体的不同点。因此， IE 面的回答两个 
題项会 有不同的意义，这取决于这些®项在问®的连续体中所处 
的位置，这就需要某种能够鉴别并处理个别不同质的题项的评分 
系统。 】 RT 能够解决这个问® 9 

此外，通过 DIF 区分出真实的组间差异，决策者能敏锐地意识 
到不同种族群体中的健康差异，并且能够准确的置化它们。 1 RT 
模型似乎又特别适合解决这样的问®。在这个领域，研究宥使用 
基于 IRT 的測量程序已经相当积扱。 

结论 


基于〗 RT 的测量模型有许多引人注目的特征 • 但不管指导量 
表编制过程的理论框架是什么，要编制好的®项是艰苦的工作。 
编制出能一致地测量所研究的属性面对被试的其他特征不敏感的 
題项是 非常有价值的 4 然面，在基于经典理论的倒置中，題项能够 
在一定程度上弥补其 他題项 的不足，而 IRT 的逻辑是每个个别® 
项代表它们自己并且评价自己（尽管编制这样的工具是可能的 ，其 
中的®项可能测量同样的现象，但我们前面讨论过，难度可以不 
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同）。因为一个人能够发现一个表现好的题项，如通过检査 ICC ， 并 
不意味着一个人愿意去发现。具有关于被测属性的独立可靠的知 
识是 IRT 的一个要求，这个要求虽然很难严格满足,但却能够通过 
对大量异质样本的重测而近似的得到满足。当这一条没有满足 
时，要说服批评家相信假设已经充分被证明是 非常困 难的。 

我个入的观点是，在经典测量理论的假设可应用的地方，也就 
是说，在題项被倾向于作为共同潜变量的同等的指标时，经典测量 
的易于处理性和可实施性使它们被广泛采用，在另一方面，如果 
研究的问题包含固有的等级反应或注重 D 1 F ， 那么基于 IRT 方法 
的额外的复杂性可能是最好的选择。然而仅仅使用这些方法绝不 
能保证得到所期望的结果。研究者必须证明：所选择方法的理论 
假设已经在可接受的限制范围内被满足了，并且测量工具的信度 
和效度是可以通过实验来验证的。 

IRT 使经典方法过时了吗？许多 IRT 的提倡者指出， CMT 和 
IRT 有各自的用途。例如，艾布瑞逊和哈希伯格 （Embretson & 
Hershberger ,1999) 在他们介绍当代测暈方法的变化的开头写道: 
“ IRT 和 CMT 方法应该结合为一个全面的方法” ( P . 252 K 最近召 
开了一个专家座谈会来检査评价健康差异的测量模型，作为其中 
的一个成员，大卫 ♦ 塞拉 (David CelU ，2001) 作了如下评述： 


在测量界内部存在着一种争论的超势，即争论在普 
通的測量传统 t 一种方法的各个方面优于另一种方法的 
各个方面。随着时间的流逝，与其说給我留下深刻印象 
的是差异，还不如说我印象最为深刻的是測量方法的共 
性，或更重要的是由方法而得出的结论。经典測量理论 
和项目反应理论也许在对个体回答问趙的处理方式和记 
分方式上有明显差异，佴是在一种方法下得到的结果很 
少显著偏离在另一种方法下得到的结果。 

IRT 将会更加普及，经典方法也将共存，就像回归分析分享结 
构方程模型方法的舞台，尽管 IRT 和 SEM 都比它们的前身更有 
用，但早期的方法仍然保持它们的效用 9 
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广泛研究背景下的测量 


Research Context 


编制量表之前 
量表施測之后 
最后的 思考 


这本书开篇就已提供了一些实例来说明 M 量从何时开始，为 
何兴起，讨论了在测量中理论的作用并且强调了在测量过程中马 
马虎虎地实施测暈的危害性 。 在重点转向后面章节的特殊问題之 
前，槪略介绍了研究的广泛背景 。 本章将在一个更广泛的研究背 
景中简要地审视量表的应用前景《 


编制量表之前 


寻求现存的工具 


在这本书的前几部分，曾说过量表的编制经常是缺乏适当的 
a 有工具的结果。确定没有适合的、可供选择的測量方法•这是很 
重要而有效的。在其他地方 （ DeVelUs ，1996) 我已经建议过寻找适 
当的量表的方法。通常，这个过程包括寻找印刷的和电子版的测 
暈，从而大概确定是否已经存在合适的量表。一系列的出版饬例 
如心理倒置年鉴 （the Mental Measurements Yearbook ： e . g . » 
Kramer &. Ccnofwy * 1992) 和印刷中 的涵量 （Tests in Print je . g . • 
Murphyi Conoley , ltnpara . 19 S 4) 包含基础的临床测童 * 包括 
能力和人格的昶验。经常有些应用心理学家将其用来作为评估来 
访者的工具。虽然在这些量表中，主要用于做研究的量表较少，但 
还是包含一些这样的量表 9 另一种办法是根据汇编而成的书、报、 
杂志等来寻找合适的董表，例如：人格与社会心理态度测量 （ Meas ¬ 
ures of Personality and Social Psychological Attitudes ； Robinson • 
Shaver . S ^ Wrightsman ，1991)® 在相关的期刊杂志中也可以极佳 
地发现对相同领域感兴挂的人 a 经成功运用过的渕量策略。 

隨着测量频率的不新增加，对测暈工具的信息的编辑 IE 被放 
在万维网 (World Wide Web ) 上。实际上，网站是把与测量相关的 
信息以最快速度扩展的地方9定位于一些特殊研究主題 〈例 如：退 
伍军人、老年人、少数民族问題）的国际互联网，有时也包括一些在 
这种类型的研究中使用的测量方法的书目。一些网站特别乐于为 
确定适当的测量工具提供帮助。 
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MEI(measurement excellent initiative ) 是一个特别有用的、可 
以进人的网页资源，这是老兵事务部门的一个网站.他们的网站 
既是一个有关拥量信息的知识库，也是寻找以印刷和网页为基础 
的测董工具和信息的一条 途径。 虽然它的最初目的是有关健康服 
务研究的拥量，但是网站还包括与其他应用相关的测量理论和工 
具的信息。其网址是 www . measurementeXperts . org 。 与 MIH 站 
点链接的众多站点之一是健康与心理数据库 （ HaPI，the health 
and psychology instruments database 丨行为测量数据服务， behav ¬ 
ioral measurement database services ， 2000) ，它还可以在线进人很 
多大学的图书馆。它包含了大量正在收集的在研究中要使用的工 
具。在通常情况下，一篇文聿中的工具最先出版摘要形式。另外， 
包括相关心 理拥量 学信息的工具，在随后的应用中其信息也会被 
包括在内。信息的丰富程度大多依赖于有多少信息提供给 HaPI 0 
因此，一些没有被深人推述的测量可以在其他的地方找到 0 除了 
有一定的限制之外，它能成为确定潜在相关工具是否有价值的 
资源。 

因此在用任何以网页为基础的信息时，应用者需要考虑信息 
的出处及其可信度。被大学和政府代理机构（例如： MEI 站点）资 
助的站点和其他机构或者组织（例如 tHaPI ) 建立的站点通常有确 
切而可信的信息。 MEI 网站囊括了所有的网站，并提供了那些被 
认为可信的和负责的网站的链接 . 然而，在通常情况下，使用这些 
网页信息时要十分小心。因为网上有大董的“质量低劣的书籍”， 
还有大量的国际互联网站虽然以科学正统的语调和面貌出现，但 
其包含的内容可能并不符合科学性。你从这本书上学到的技巧将 
帮助你用更严格的眼光评价任何模式的测量信息，并且帮助你决 
定被播述的测量是否已被证明有足够的信度和效度。 

在所研究的群体坏境中审槿结构 

我们已经讨论过在理论上明确清晰的重要性 p 评估作为研究 
者的我们所确定的理论结构与我们计划要研究的人的看法和经验 
是否一致，这通常是很重要的。群组聚焦分析（参见 Krueger 
Casery ，2000) 可以作为一种方法来检验作为所研究的结构的基础 
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的思想对被试来讲是否有道理，例如，在一项关于归因的研究中， 
人们被要求沿着诸如“可控性”与“不可控性”，“适用于特殊场合” 
与“可适用于大多场合'和“我的一神特征”与“环境或情境的一种 
特征 w 这三个维度对各种结果的归因进行解释和说明。归因过程 
的研究已取得很多成果。沿着这些维度，大多数人能够分析结果， 
例如，面试完了以后被试得到了一份工作，此时要求被试分析导致 
结果产生的原因。然而，在某些情况下，这神分析方法可能会导致 
—些问題，例如，在国外*住在乡下的、没有受过教育并且对这种 
归因方式不熟悉的老年人，让他们沿着这三条维度对疾病和昀物 
决策进行评价是行不通的6经验表明，他们也许仅仅是无法理解 
任务，因为让他们以这种方式考虑事情太陌生$要求潜在的研究 
对象讨论相关概念的群组聚焦分析可以弄清楚这个问题，并且群 
组群焦分析可以排除注定将导致失败的测量策略 9 

群组聚焦分析也能够掲示在研究中采用的概念与人们的曰常 
语言之间的关系9 一位年轻的母亲不会用与市场专家相同的术语 
来措述其对一个犄品的反应 9 当儿童在没有具体玩具的情景下进 
行游戏时，前者可能使用“假装”来描述这种情形，然而一位市场研 
究人员可以用“不直接接触玩具”进行推述_根据她的语言用法构 
造的题项（例如：你的孩子花多长时间进行假装游戏，不用任何玩 
具），比根据专家的语言用法构造的题项（例如：你的孩子在非直接 
接触玩具的游戏中花多长时间），更可能产生一个适合于侧量她对 
她的孩子怎样与各种各样物品相互作用的感知的工具。 

请注意：一些研究者主张只在目标人群中选择愿意接受调査 
问卷的被试 • 这是可以接受的而且这可能给参加者一种在研究过 
程中积极参与的强烈感觉。然而，期望非专业者理解应用到題项 
结构中的技术问題是不公平的，就像在第5章中讨论过的那样。 
例如:一位非专业者可能更朞欢用褒义的中性词语来推述一个題 
项，然而一位有经验的量表编制者会认为在对理项进行回答时，良 
好的表述不应该产生细镦变化，从而遵免致使*项 无用。 如果让 
参加者感觉到他们积极参与了研究是适当的话，我个人主张用多 
种方式帮助参加者，使他们感覚到他们积极参与了研究，但是研究 
者保留决定理項最终表述的权利 * 如杲我们随意创建一个不能精 



确地测量他们的看法、情感或态度的情塊，那么我们就没有尊重我 
们研究的参加者。我们仅仅是在浪费他们的时间。 

还有其他的方法也能用来决定参加者是否 a 解提问的目的9 
例如 t 简单的问人们，这个问®的意思是什么，或在工具性小型测 
验中要求被试在形成一个答案时大声报吿他们的思考过程，这可 
能是十分有效的。通常重要的一点是，要理解谁将是被试，并且决 
定哪种概念表达方式对他们来说是最清楚的。 


决定量表施测的櫈式 


研究者能通过多种方式收集数据（例如： DilliMm 2000), 他们 
可以根据被试的偏好来选择相匹配的施测模式。相应地，调査者 
可以考虑采用比打印的调査问卷要好得多的访谈法。应认识到， 
企图用打印形式完成的量表与题项同用口头语言表示反应的测量 
有十分不同的性质 9 例如 8 如果父母不得不大声向一位访谈者报 
吿而不是对可选择的反应做标记，那么父母可能会更加不愿意承 
认他们对孩子有高的期望（企图通过不同于自我施测问卷的模式 
搜集数据的调査者将可以参考以下作品 f Lavrakas , 1993及 
Fowkr & M an gione ，1989)。 一鷇在量表编制过程中严格限制一种 
新量表的使用方法的施测模式是正确的。一个 G - 研究(见第3章) 
可以用来决定量表在施测模式上的通用性 (generalizabilityh 


在其他方法或程序的背景中考虑量表 


什么问题或研究程序会趄越量表本身？这些问题将如何影响 
人们对量表的反应？农纳利 （ NurniaUy ,1978， pp . 627〜 677) 把背 
录因素例如反应形式、疲劳和动机等当作偶然变董 （contingent 
variables ). 他还指出它们能够对研究产生三个方面的负面影响: 
①降低量表的信度；②通过建立可靠的变差来源而不是所研究的 
结构，从而降低效度 I ③明确地改变了变量之间的关系，例如：使变 
量之间出现比实际还要高的相关。作为偶然变量如何起作用的例 
子，情绪感应 (mood induction ) 和认知情境也可以在市场研究的例 
子中产生影响.例如，如果市场研究者决定在同一份问卷内包括 
一个沮丧或自尊量表作为他们的期望量表，那么情绪感应就是一 
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个问題 9 涉及这些(和其他)结构的量表经常包含了表达个人自己 
的消极观点的題项。例如，罗森博格自尊量表 （Rosenberg， 1965> 
包含了诸如“我感觉我没有多少值得骄傲的”（也有表达积极自我 
认同的题项)这样的题项。一位没有注意情绪感应的潜在作用的 
研究者会在编制一个新的量表时会选择一系列自我评定 （Self-crit¬ 
ical) 的題项。 而被试在阅读那些总是对自我消极评价的陈述时可 
能会产生烦躁不安的状态，并可能导致被试认为无论随后将要感 
知到的是什么，都不同于他已感知到的 （KihUtrom，Eich, Sand- 
brand* &• Tobias，2000； Rholes, Riskind， Lane , 1987) g 这可 
以有农纳利提到的三个不利效果中的任何一个，即出现使情感消 
极的题项时，期望題项能使情感消极题项的含义有轻微的改变，从 
而降低这些题项在潜在变董上的变异比例。或者，在一个极端的 
情况中，期望量表中的一些題项能初步地感知其受到情绪題项的 
影响，使作为溷量父母期望的量表具有多个因子并降低了它的效 
度. 最后，某种程度上，被试的心情影响了他们对期望题项的反 
应，使这个测验的分数与其他与情绪相关的测量人为地具有高 
相关。 

认知倩境是相同的现象中的一个更普遵的例子，即，除了情绪 
以外，一些相关的结构通过使被试集中注意于某些特殊的题目，从 
而引起了和上述情境相同的现象。例如，先前提到有关被试的收 
人，他们家庭的财产值和他们每年花多少钱在不同类别消费物品 
上等题项的期望量表可以暂时地改变他们对孩子的期望。结果， 
对暈表的反应可能反映了一种短暂的无意识状态。由于情绪的改 
变，这种认知情境通过影响其淸晰地反映父母期望的移变，从而对 
量表的信度和/或效度产生了不利影响。 


量表施簡之后 


当量表被用来从事真实的研究问題之后，不同的问題就出现 
了。一个主要的问題是如何分析和解释量表所获得的数据。 


171 



分析问题 


数据分析中的一个问题是，在不同性质的量表中对变量的不 
同处理技术的合理性。理论上，这本书极力倡导的方法能使量表 
能适合广泛多样的数据分析方法 9 虽然，严格地说，采用利克尔特 
或语义微分反应模式的理项可以是有顺序的，但有大量经验的人 
主张对量表采用基于间距 （ interval-based 〉 的分析方法，然而，社 
会科学领域里哪种方法最适合哪种类型的数据依然争论激烈，的 
确，这种1#况还将继续下去。决定不同反应选项如何影响对潜在 
变量的估计，是这个领域的一个积极研究的方向。当然，不同的读 
者对如何对待测量将有不同的期待。例如，心理学家认为利克尔 
特量表收集的差异水平数据是有用的，流行病学家却不这样认为。 
也许最具可操作性的方法是：了解在其感兴趣的领域内流行的观 
点是什么(并采用流行的观点）。 

解釋何颺 

假定研究者已经找到一个合适的策略来分析新编写的量表的 
数锯，如何解释數据依然是一个问题。在这个时刻浮现在头脑中 
的是，在量表编制过程中没有稳定地建立量表的 效度。 确定效度 
是一个不断累积、不断进行的过程。而且，效度实际上是一个董表 
如何被使用的特征，而不是量表本身的特征。例如，一个抑郁量表 
在评估抑郁时可能是有效的，但在评估普遒的消极情感时可能就 
不是有效的。 

同样，思考某人的发现也是重要的。尤其是如果出现了违反 
直觉的或违反理论的结果，研究者必须考虑量表在特殊研究（如果 
范围不是比较大的话）背景下无效的可能性。它可能是量表的效 
度受不同人群、情境、施测过程的特殊细节或其他维度的分类的限 
制。例如，假定对父母的期望进行的心理测量是在相对富裕的人 
群中编制出来的，那么对于不那么富裕的个体来说，测量的效度可 
能是不可接受的，根据在一定范围内才能有效应用的量表所得出 
的任何结论，都应考虑以下方面:①目前应用的情境在多大程度上 
与它最初有效的情塊 不同； ②对量表的效度进行限制的各种可能 
性; ③这些限制对目前研究的意义. 
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通用性 


虽然上一段就不同人群、情境以及研究的其他方面的通用性 
提出了警告，但该问题仍然需要进一步强调9得出关于组间存在 
差异的结论，潜在地混淆了所测现象的差异和工具性能之间的差 
异。如果我们能够假设后者是微不足道的，那么就可以确定观察 
到的差异是组间差异。但在许多情况下（比如，对随机选择组和指 
定分配组儿童完成任务的时间进行比较），我们不能确定工具性能 
之间的差异是否是微不足 道的， 在某些情况下，（比如，跨文化地 
区的人群的比较）我就不能假设出现的差异一定是测量分数的差 
异 0 第7章所讨论过的 DIF , 是心理治疗研究中一个活跃的 领域。 
尽管绝大多数研究者不会将确定工具性能之间的差异作为他们自 
己努力的核心，但是他们应该童识到工具性能之间存在差异的可 
能性及其对他们的结论的 影响。 


最后的思考 


测量是社会和行为研究中必不可少的方面。不论研究的其他 
方面计划和执行得多好，测量可以使一项研究成功或失畋 。 我们 
假设我们所研究的变量符合我们所采用的估计程序，但通常情况 
下，初步感兴趣的关系存在于两个或更多无法观察到的变量之间， 
比如我们可能期望得到某种结果却没有考虑到其他可能的结果。 
由于我们无法直接测量期望或思考过程，所以我们构造了我们希 
望能够捕获它们的测量。这些测量在某种意义上是对潜在概念定 
量的反映。只有当这些反映正确时（比如，工具是有 效的〉 •我们所 
观察到的测量之间的关系才能够反映我们所希望能估计到的、不 
可观察的结构之间的关系。精细的取样、极好的研究计划以及无 
可挑剔的执行程序也无法改变这一事实。一位研究者如果不理解 
测量和他们描绘的变量之间的关系，可以毫不夸张地说，他或她就 
不会明白自己说的是什么。由此看来，使测量精细化、具体化的努 
力会通过其获得的益处面得到足够回报 • 
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